DeepSeek进军文生图领域 DeepSeek刚刚宣布了另一个开源AI模型Janus-Pro-7B。该模型可生成图像,并在GenEval和DPG-Bench的基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。
有意思的是,有国外网友用Dalle-3, Flux-schnell,Ideogram 2.0,Imagen 3和Janus-Pro-7B生成图片做了对比。由于我并不清楚这些人测试的专业准确性,所以我只贴出他们生成的图片(图3~图7),没指明哪张图是哪个模型生成的。大家感兴趣的可以自己去试试。
以下是关于Janus-Pro-7B英文资料的一些翻译转载:
Janus-Pro是一种新颖的自回归框架,它将多模态理解和生成统一起来。它通过将视觉编码解耦为单独的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,而且还增强了框架的灵活性。Janus-Pro超越了之前的统一模型,并达到或超过了特定任务模型的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。
Janus-Pro是一个统一的理解和生成 MLLM,它将视觉编码解耦以实现多模态理解和生成,基于DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建。对于多模态理解,它使用SigLIP-L作为视觉编码器,支持384x384图像输入。对于图像生成,Janus-Pro使用此处的标记器,下采样率为16。