OpenAI 的 GPT-4o 图像生成在人工智能分析图像领域首次亮相,ELO 得分并列第一,优于 Recraft V3、FLUX 1.1 [pro] 和 Gemini 2.0 Flash @OpenAI上周推出了 GPT-4o 图像生成,将 ChatGPT 的内置图像生成从之前使用 OpenAI 的 DALL-E 专用图像生成器的系统升级而来。 GPT-4o 图像生成支持文本和图像提示输入,允许使用指令提示编辑图像。在我们的类别细分中,该模型在文本和排版、人物:肖像、动漫和科幻方面表现尤为出色,因此排名靠前。 OpenAI 透露,4o 图像生成是 ChatGPT 使用的 GPT-4o 模型中的“原生嵌入自回归模型”。然而,OpenAI 在发布的“演示”图像中暗示了一种混合架构。这看起来像一个自回归变换器,生成潜在空间表示,然后使用扩散技术将其转换为像素。 OpenAI 于 2024 年 5 月首次展示了 GPT-4o 输出图像的能力,当时 GPT-4o 刚刚推出。3 月初,谷歌凭借其 Gemini 2.0 Flash 原生图像生成功能,抢先在现代语言模型中公开发布了原生图像生成功能,领先于 OpenAI。然而,Gemini 2.0 Flash 在图像领域排名第 27 位,而 GPT-4o 排名第 2。 除了图像生成之外,我们还发现,在某些图像编辑任务中,Gemini 2.0 Flash 比 GPT-4o 表现更好,因为保持输入图像的一致性至关重要。 编程严选网 人工智能 openai chatgpt
OpenAI的GPT-4o图像生成在人工智能分析图像领域首次亮相,ELO
JavaEdge聊AIss
2025-04-01 21:19:29
0
阅读:0