【[59星]ThinkDiff:让扩散模型具备多模态上下文推理能力,彻底改变生成

爱生活爱珂珂 2025-02-19 21:19:37

【[59星]ThinkDiff:让扩散模型具备多模态上下文推理能力,彻底改变生成图像的方式!亮点:1. 将视觉语言模型与大型语言模型解码器对齐,而非直接对齐扩散解码器,大大简化了训练过程;2. 在CoBSAT基准测试中,将最佳准确率从19.2%提升至46.3%,仅需5小时训练;3. 仅用普通图像-文本对训练,无需复杂多模态数据集】

'I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models'

GitHub: github.com/MiZhenxing/ThinkDiff

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注