「智猩猩AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。
「智猩猩AI新青年讲座」现已完结255讲,错过往期讲座直播的朋友,可以点击文章底部 “ 阅读原文 ” 进行回看!
近年来,扩散模型在人工智能生成内容(AIGC)方面取得了重大进展。一方面,与GAN等经典模型不同,扩散模型迭代地细化噪声向量,从而产生具有精细细节的高质量结果。另一方面,经过大规模数据的训练,这些模型在输入条件和输出结果之间表现出令人满意的一致性。这些能力推动了文本到图像生成的快速进展,然而现代扩散模型的出色生成性能严重依赖自注意力机制处理复杂空间关系。这种现有范式由于复杂度随图像分辨率呈二次增长,在生成高分辨率视觉内容时面临显著挑战。
为解决上述问题,新加坡国立大学在读博士刘松桦提出了LinFusion架构,以一种新颖的广义线性注意力机制作为传统自注意力替代方案。 LinFusion 仅经过适度训练即可实现与原始Stable Diffusion(SD) 相当甚至更好的性能,同时显著降低了时间和内存复杂度,可以在1块GPU上生成16K超高分辨率图像。代码现已开源。
作者通过研究近期提出的线性复杂性模型,如Mamba、Mamba2和门控线性注意力,确定了两个关键特性:注意力规范化和非因果推理,这些特性显著提升了高分辨率视觉生成的性能。在此基础上,引入了一种广义线性注意力范式,这是常见线性标记混合器的低秩近似。同时为降低训练成本并充分利用预训练模型,作者从预训练的SD中提取知识并初始化模型。
实验结果表明,经过适度训练的LinFusion,大幅减少了推理时间和内存消耗。尤其是在生成16K分辨率图像时,模型能够高效运行,仅需1块GPU、1分钟即可生成且生成质量优异。同时作者在SD-v1.5、SD-v2.1和SD-XL等版本上的测试显示,LinFusion能够生成16K分辨率等高质量图像,并表现出优异的零样本跨分辨率生成能力。此外,该模型无需额外调整即可兼容SD预训练插件(如ControlNet和IP Adapter)。
12月3日10点,智猩猩邀请到论文一作、新加坡国立大学在读博士刘松桦参与「智猩猩AI新青年讲座」256讲,主讲《16K超高清图像生成——预训练扩散模型高效线性化》。
主讲人
刘松桦
新加坡国立大学在读博士生
师从王鑫超教授,本科毕业于南京大学。研究方向为高效数据合成以及使用合成数据进行高效训练。曾在CVPR、ICCV、NeurIPS、ICML、以及IEEE TPAMI等国际会议、期刊上以第一作者身份发表论文10余篇。2023年度国家优秀自费留学生奖学金获得者。
第256讲
主 题
16K超高清图像生成——预训练扩散模型高效线性化
提 纲
1、主流视觉扩散模型与Mamba2回顾
2、注意力规范化及非因果推理关键特征解析
3、广义线性注意力机制的设计与实现
4、实际应用与生成效果分析
5、在Diffusion Transformer模型上的扩展延伸
直 播 信 息
直播时间:12月3日10:00
直播地点:智猩猩知识店铺
成果
论文标题
《LinFusion: 1 GPU, 1 Minute, 16K Image》
论文链接
https://arxiv.org/abs/2409.02097
项目网站
https://lv-linfusion.github.io/
报名方式
对本次讲座感兴趣朋友,可以扫描下方二维码,添加小助手米娅进行报名。已添加过米娅的老朋友,可以给米娅私信,发送“ANY256”即可报名。
我们会为审核通过的朋友推送直播链接。同时,本次讲座也组建了学习群,直播开始前会邀请审核通过的相关朋友入群交流。