众力资讯网

过去两周,我首页几乎被Image 2的各种消息刷屏。它的文字渲染能力,尤其是中文

过去两周,我首页几乎被Image 2的各种消息刷屏。它的文字渲染能力,尤其是中文渲染,非常强。拿它生成的海报、信息图或者标牌什么的,几乎没遇上文字变形的情况。

刚好今天朋友转发给我一篇知乎上的帖子,作者是陈博远,Image 2的主力训练者,OpenAI研究科学家。

他在这篇帖子里,简单聊了一下他在训练这个模型背后的一些花絮,非常有意思。大家如果感兴趣的话,一定要去看一下原帖。

陈博远现在在OpenAI做图像生成方向的研究科学家,Image 2这个模型,就是他主力训练出来的。

如果你有看4月底那场发布会直播,应该会注意到奥特曼旁边这位拿电脑演示的就是他,他们当时直播演示了Image 2的多语言文字渲染能力。

1先说一个很多人不知道的细节。Image 2在正式发布之前,用了一个内部测试代号,在LMArena平台上做了双盲测试,让用户不知道是哪家的模型,直接比较生成质量。

这个代号叫duct-tape,翻译成中文就是布基胶带,名字是陈博远起的。

为什么要叫布基胶带?理由很简单:布基胶带可以把香蕉贴在墙上。

这里补充一点背景知识。几年前有一件很出名的概念艺术作品,艺术家真的用布基胶带把一根香蕉粘在美术馆的白墙上,当时拍出了很高的价格,引发了大量争议。到底什么是艺术,那根香蕉值不值那么多钱,这件事当时传播得很广,到最后变成了一个梗。

双盲测试结果是他们断崖领先,排第二名的模型代号叫小香蕉。赢了香蕉,靠的是布基胶带。

2OpenAI这次发布的官方博客很特别,整个页面没有一段纯文字,全是图片。

这些图大部分是陈博远亲手做的,而且他在做每一张图的时候,核心问题不是这张图好不好看,而是这张图能不能展示别人做不到的东西。

比如有一张4K的细节图,画面是密密麻麻的米粒,但其中一颗上面刻着字。通过最直观的方式,展示这个模型在极高精度下的细节渲染能力,边界在哪里。

他还专门设计了一张中文彩蛋,想把接住梗和香蕉梗都融进去,同时用这张图来测试模型到底能在多细的地方渲染出正确的文字。生成出来以后,包括里面的画中画和画中画中画,都是一次性生成的。他做完以后担心大家觉得这是拼接图,特地在图底加了一行备注说明。

3这条帖子评论区氛围也很好,不少用户都在认真提技术反馈,还有有提功能建议的。

PS:热评第一居然是孙宇晨!也是次元壁破了......

很推荐大家平时也可以去知乎这样的平台,关注一些真正接近信息源头的渠道,留意一下领域里的builders发的一手信源。

信息也是有层级的,做这件事的人是第一层,报道这件事的人是第二层,分析报道内容的人是第三层。很多人习惯消费第三层的内容,但其实第一层的内容并不难找。

一手信源给到的信息,细节和温度也会更多。