#OpenAI文生图强在哪#当你以为OpenAI拉了,他就给你放个大的。G

差评XPIN 2025-03-28 15:45:35

#OpenAI文生图强在哪# 当你以为 OpenAI 拉了,他就给你放个大的。GPT-4o 文生图模型出来后,昨天差不多刷爆了 X,这玩意直接让用嘴 P 图、敲字画图的离谱需求,成了可能。

首先,画面保持和图片风格转化方面,4o 主打一个驾轻就熟。像照片转成漫画风,把画改成真实风格,都相当不错。但其他 AI 也能做到。真正 Only OpenAI can do 的是以下几点。

第一个是在文本的渲染上,4o 模型这次残暴得甚至有点可怕。例如图五,我让他生成一个学者在白板上写量子力学的公式和理论,又有数学公式又有框图的,它不仅全识别出来,白板的倒影效果甚至都能做出来。

第二个就是在多主体的生成上,4o 模型这次主打一个又准又狠。按照 OpenAI 的说法,其他模型在处理 5-8 个对象时就顶不住了,而 4o 最多能处理 10-20 个不同的对象。

我觉得最牛的,是 4o 的图片生成模型在对于文字和图像的理解这方面,就跟长了脑子一样,特别是在长文本理解上。例如图八,我叫它画一个房间里的大象,但不能让观众直接看见有大象,得是那种明明存在,但所有人都看不见,但在氛围里又真的存在的大象。很抽象是吧,但它理解了,并用光影搞了一个透明的空气大象。

还有不给任何参考信息,让它直接用插图解释一样牛顿发现的光的折射原理,他能直接给出教科书级的专业插图。

当然它不是完美的,图片元素如果过多,或者长度太长,到后面就会崩了。官方博客还说,他们虽然在拉丁文字处理上整挺好,但对别的小语种,就不大行了。但瑕不掩瑜,AI 更新的速度实在是太快了。

0 阅读:0
差评XPIN

差评XPIN

用知识和观点Debug the world!