众力资讯网

何恺明团队提出JiT方法,让扩散模型直接预测干净图像

11月19日晚消息,据新智元报道,何恺明团队发布最新研究成果《Back to Basics: Let Denoising Generative Models Denoise》,颠覆了当前主流AI生图技术(扩散模型)的基础范式。团队指出,扩散模型在学习“预测噪声”而非“生成干净图像”,并提出名为JiT的全新方法,让AI直接预测干净图像。 何恺明是AI领域顶尖学者,ResNet(深度神经网络架构)发明人,麻省理工学院(MIT)副教授,论文引用超70万次。其团队曾贡献ResNet、Faster R-CNN、Mask R-CNN、MAE等多个里程碑工作,其中ResNet让深层神经网络训练成为可能,MAE推动了自监督学习发展。 最新提出的JiT方法无需tokenizer(标记器)、预训练或额外损失函数,仅使用基础Vision Transformer架构。该方法基于流形假设,让网络直接预测干净图像而非噪声,在ImageNet上256×256分辨率FID达1.82,512×512达1.78。 论文一作黎天鸿为何恺明在MIT的弟子,本科毕业于清华姚班。实验显示,在高维空间中传统预测噪声方法完全失效,而JiT方法仍保持稳定,甚至引入降维瓶颈还能提升生成质量。 该方法为蛋白质、分子等难以设计tokenizer的领域提供了新思路,有望推动更通用的"扩散 + Transformer"范式。