何恺明新作：砍掉VAE，文生图竟然更强了

文生图领域早就是一片红海，大家似乎默认了一个前提：要训一个牛逼的模型，预训练 VAE、AdaLN 条件注入、RL/DPO 对齐、海量私有数据……缺一不可。

但何恺明团队偏不。他们反其道而行之，做了一次极致的「技术减法」，发布了全新 baseline：MiniT2I。
没有 VAE，没有 AdaLN，没有私有数据，纯粹在像素空间直出。结果？

👉 258M 的小模型，直接干翻了参数量大它数倍的同类选手！
MiniT2I 的核心主张是：如果把文本条件当作「带有语义信息的上下文 token」注入模型，文生图和类别条件的 ImageNet 生成在本质上并没有那么大的区别 —— 架构可以相似，算力可以相当，甚至数据量级也可以对齐。

1️⃣ 像素空间直出，不要 VAE
当前主流全在玩 Latent 扩散，但何恺明团队认为：在 512×512 分辨率下，切成 1024 个 token 纯属 Transformer 的舒适区。

2️⃣ MM-JiT 架构：回归朴素 Transformer
MiniT2I 提出的 MM-JiT 架构极为优雅：
1.只加两层文本适配器，直接删除 AdaLN 分支。
2.省下的算力拿来多叠几层网络（12层 ➔ 17层），FID 评分直接从 18.7 冲到 13.7。

3️⃣ 训练数据：全公开+两阶段训练
完全对标 LLM 的范式：
1.预训练（LLaVA 重标注的 CC12M）拓宽世界观。
2.微调（约 12 万张高质量图文对）教模型听懂人话。

MiniT2I-B/16 仅用约 600M 总参数，在 8 张 H100 上训练 3 天，就在 GenEval 等榜单上超越了数倍体量的模型；升级到 912M 参数的 L/16 版本后，其空间关系和想象力场景的生成质量甚至优于 ~2B 参数的 SD3-Medium，堪称学术界的性价比天花板。

不过，团队也十分坦诚地指出了像素空间带来的技术代价：由于缺少了解码器的“平滑”滤镜，模型在 patch 边界处存在轻微伪影，且在高 CFG 引导下更容易暴露视觉瑕疵；同时受限于全公开数据配方，它在文字渲染和实体生成上仍逊色于堆料的工业大模型。

但这恰恰证明了它作为一个纯粹、极简 Baseline 的研究价值。

仓库地址：/PeppaKing8/minit2i-jax

众力资讯网

何恺明新作：砍掉VAE，文生图竟然更强了

热门分类