【新智元导读】这几天,最新发布的Stable Diffusion 3和Luma AI的视频生成模型Dream Machine相继发布,但这两个模型却用非常独特的方式震撼到了网友们。Dream Machine加上二创脑洞成为快乐源泉,SD3输出的诡异图片却散发着浓浓的「黑色幽默」。
昨天诞生的AI视频新霸主——Luma AI的Dream Machine,再次在整个互联网掀起高潮。
网友们昨天还集体表示,要舍弃Pika和Runway了,Dream Machine最好!
![](http://image.uc.cn/s/wemedia/s/upload/2024/1153066b79fa35afe197c0e1f73adf55.png)
借着每个月免费生成三十次的羊毛,大家纷纷试用。但是,其中有不少翻!车!了!
![](http://image.uc.cn/s/wemedia/s/upload/2024/b84383cbc9cee553f1a74ccb6145d931.jpg)
AI圈大佬奥特曼、老黄和Greg正一团和气地合影,下一秒Greg就突然变脸,一拳揍在奥特曼胸前。随后三人陷入缠斗模式,现场乱成一团。
![](http://image.uc.cn/s/wemedia/s/upload/2024/ae8f0855c5208546519b0ae7c52ce306.gif)
以及下面这个OpenAI曾经一团和气的大合影——
![](http://image.uc.cn/s/wemedia/s/upload/2024/9cf56aa1d74ca65fe765b8dbf147e90b.jpg)
经过Luma模型的妙手之后,又变成了大乱斗场面。
![](http://image.uc.cn/s/wemedia/s/upload/2024/e0caddda84c35fb821a2cb024233fbcd.gif)
但其实Dream Machine并不是一个有「暴力倾向」的模型,它很少生成打架场面。
比如下面这个,通过奥斯卡颁奖礼的合照生成出的视频,气氛依旧温馨。
![](http://image.uc.cn/s/wemedia/s/upload/2024/2b0aab92d867b4fe7a54deef64474691.gif)
看来OpenAI的「宫斗」太明显,连模型都知道了照片背后的故事。(不会是Sora给Dream Machine传了八卦吧)
网友实测让Luma生成动画,发现画面极其诡异——
白色的狗头迅速出现在身体的各部位,随后白狗有丝分裂出第二只白狗,最后白狗直接和棕狗实现了换头。
![](http://image.uc.cn/s/wemedia/s/upload/2024/45af0119461e74e9d464f9a24bdf738a.gif)
果然,四年寒窗无人问,一朝翻车天下知。
而且,有推特网友发现,Luma非常倾向于让图片中的人物转身离开,比如下面这张威利·旺卡。
![](http://image.uc.cn/s/wemedia/s/upload/2024/bd0507ac0bff2282734273ff05cafc84.gif)
把各种头像图片输入进去,得到也是类似的结果。
![](http://image.uc.cn/s/wemedia/s/upload/2024/ec92defaa685c9da1a939e11e4993c91.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/5bbd34663f91685b8afd68630bbeffa4.gif)
这虽然无伤大雅,但是这种单调且「我行我素」的生成结果有些令人恼火,好像是模型怕自己搞出「变脸」,所以干脆让人物转头了。
Luma AI表情包
虽然翻车案例很多,但是创意无限的网友们还是发掘出Dream Machine一个非常有前途的应用——生成表情包动图。
比如这张非常著名的模因图片,经常被用于p成各种表情包:
![](http://image.uc.cn/s/wemedia/s/upload/2024/7abfb03b5b602408a97a30976059b9ed.jpg)
把图片输入给Luma的模型,它会「脑补」出什么画面?
是正牌女友生气吵架?
![](http://image.uc.cn/s/wemedia/s/upload/2024/e52a754aa54308ce340dd143b71a7305.gif)
还是干脆分手另觅新欢?
![](http://image.uc.cn/s/wemedia/s/upload/2024/981c686deddaeea7166e8e1145719766.gif)
看出来Dream Machine的drama特质了,脑补出来的都是大型人性修罗场。
甚至,这个表情包还舞到了Andrej Karpaty大佬面前,他也表示自己受到了一些AI技术的震撼。
![](http://image.uc.cn/s/wemedia/s/upload/2024/f4a7de1897898f358beb64646599f2a4.jpg)
Luma AI将图像扩展为视频的新模型确实是另一回事。我凭直觉知道这很快就会成为可能,但看到它并思考未来的迭代仍然是另一回事。
再输入一只表情倔强的柴犬照片,就得到了一张完美的动图。
![](http://image.uc.cn/s/wemedia/s/upload/2024/0bbf2eadc6d117ef278945391ca1bf78.gif)
但下面这个生成结果相对平淡,人物转头后,脸上的表情也消失了。
![](http://image.uc.cn/s/wemedia/s/upload/2024/62f57cfe6426a008005fcebc10764575.gif)
根据著名的「地铁老人看手机」生成动图后,痛苦的感觉似乎加剧了。
![](http://image.uc.cn/s/wemedia/s/upload/2024/a15aa2213d045c8fc66e68742bfcb690.gif)
把图片生成模型和Luma放在一起用,还会碰撞出意想不到的效果。
有人突发奇想,用Midjourney生成一张教皇穿羽绒服的图片,再让他走几步,突然可爱了起来。
![](http://image.uc.cn/s/wemedia/s/upload/2024/8d06efb1b35117fdb8dc09af9b99b418.gif)
搭配Stable Diffusiion 3生成的诡异人体图片,输出的动图简直是「恐怖」效果加倍。
![](http://image.uc.cn/s/wemedia/s/upload/2024/b0b3a33fbb50b02e1f7c5dc2071e0412.gif)
Luma不仅没有把畸形的人体纠正过来,而且将错就错。拉近镜头后,人物原本正常的表情都变得令人发指了。
![](http://image.uc.cn/s/wemedia/s/upload/2024/e8c7cfeae28a4f17cd3695fd806b90e1.gif)
发出这些视频的帖子中,博主还很礼貌地附上了一句「I'm sorry…」,评论表示,看完就后悔了。
![](http://image.uc.cn/s/wemedia/s/upload/2024/b4deed918b058e5ea6baf9ae14db05dc.jpg)
SD 3翻车
说到刚放出的Stable Diffusion 3的「翻车」图片,这也是网友们最近的快乐源泉。
「我很久没这么开心过了。」
![](http://image.uc.cn/s/wemedia/s/upload/2024/b7a76b6f3cb7fa7ddcd91d3c012eee8b.jpg)
Stability AI表示,这是他们「迄今为止最复杂的图像生成模型」,却引来了全网群嘲。生成的一堆「畸形」图片反而让人认为它大幅退步,落后于Midjourney和DALL-E。
图片的「畸形」程度有多严重呢?
是看了可以做噩梦的地步。
比如,生成出的手指不仅数量不对,形状也十分离奇,根本不像人类的手指。
![](http://image.uc.cn/s/wemedia/s/upload/2024/a901a68953caf9e1e47419978d44d9ac.jpg)
这张图让人突然想到《瞬息全宇宙》的「香肠手指」设定。
![](http://image.uc.cn/s/wemedia/s/upload/2024/dc8c380e1a6c8b0a0bea8cd51cf2bc7e.jpg)
![](http://image.uc.cn/s/wemedia/s/upload/2024/61db1078d6987b0277c8cc2c6699844d.jpg)
如果仅仅是手指也还说得过去,毕竟这一直是图像生成模型的「顽疾」。
然而,SD3已经到了连人类四肢、躯干都不能好好生成的地步了。
下面这张草地上的人体图片,几乎已经成为SD3翻车的标志性象征了,全身上下没有一个地方是合理的。
![](http://image.uc.cn/s/wemedia/s/upload/2024/dd9b944366a6424ac862db6b7be86055.jpg)
在沙滩上的这两张,乍一看外形还不错,细看才能发现有许多恐怖之处。
![](http://image.uc.cn/s/wemedia/s/upload/2024/fba9b247b14791db288a6f3155c5014d.jpg)
更匪夷所思的还在下面——
![](http://image.uc.cn/s/wemedia/s/upload/2024/b351cb9dd00485dd21eba66e9f9e7ff4.jpg)
在Reddit的帖子上,网友甚至发出嘲笑般的质疑「这应该是个笑话吧?」
「一段时间前,StableDiffusion 还在与 Midjourney 竞争,现在它看起来就像一个笑话。至少我们的数据集是安全和道德的!」
即使与Stability之前发布的模型相比,也能看出SD3的显著退步。
有网友用相同的prompt输入给SD 1.5、SDXL Turbo和SD 3,并比较了这三个模型的输出结果。
最早的SD 1.5即使没办法做到百分百正确、逼真,至少不会错误到离谱和「恐怖」的程度。
上一代SDXL Turbo生成的图片在真实感之外还做到了构图和光影的美感。
![](http://image.uc.cn/s/wemedia/s/upload/2024/bc7420e932e54a3d57a39ca854205fa7.jpg)
下面的这个对比更加明显,SD3和SDXL的能力仿佛不在一个世界。
![](http://image.uc.cn/s/wemedia/s/upload/2024/71c5891116ab521350588df2accd83ac.jpg)
这不禁让人怀疑,SD3到底怎么了?
有Reddit用户认为,Stable Diffusion 3的解剖学失败是由于Stability坚持从训练数据中过滤掉成人内容(即NSFW内容,not suitable for work)。
「信不信由你,严格审查模型也会去除人体解剖学内容,所以……这就是发生的原因。」
这个说法虽然乍一听不符合直觉,却有迹可循。
当prompt涉及到 训练数据集中未能很好代表的概念时,模型就会根据自己的理解进行最佳解释。
而SD3生成的恐怖结果,就是在没有足够训练数据时,它眼中的人体合理形态。
类似的问题在以前也曾出现过,比如2022年发布的Stable Diffusion 2.0也无法很好地表现人体。
当时,研究人员很快发现,审查包含裸体的成人内容会严重阻碍模型生成准确人体解剖学的能力。
因此,Stability AI 在SD 2.1和SD XL中迅速调整了策略,才让模型恢复了一些因坚决过滤NSFW内容而失去的能力。
在模型预训练期间可能发生的另一个问题是,用来从数据集中删除成人图像的NSFW过滤器有时太过挑剔,意外地删除了可能并不冒犯的图像,从而剥夺了模型在某些情况下对人类的描绘。
对此,有网友猜测「(SD3)只要图片中没有人类就能正常工作,我认为他们改进的NSFW过滤器把所有类人形象都当成了NSFW。」
Stability AI深陷泥沼
Stability在今年2月宣布了Stable Diffusion 3,并计划推出多个版本。
最新发布这一版被称为「Medium」,有2B参数。模型的权重已经开源,既能从Hugging Face下载,也能通过Stability Platform进行实验。
![](http://image.uc.cn/s/wemedia/s/upload/2024/5704362e0bd089d53cee6b87b7eb6b4e.jpg)
论文地址:https://arxiv.org/abs/2112.10752
2月官宣后不久,SD3 模型权重的发布却延迟了,这激起了Stability存在技术问题或管理不善的谣言。
事实上,Stability这几个月在人事方面的确十分混乱,其创始人兼CEO Emad Mostaque于三月份辞职,随后是一系列裁员。
三位Stable Diffusion的灵魂人物——Robin Rombach、Andreas Blattmann 和 Dominik Lorenz也——离开了公司。
此外,Stability甚至还面临着资金方面的困难。2023 年以来,公司财务状况不佳的消息一直在流传。
对于一些Stable Diffusion的粉丝来说,SD 3 Medium的失败是公司管理不善的外在结果——也是事态恶化的明显迹象。尽管公司尚未申请破产,但在看到新模型后,一些用户开始写下关于破产的黑色幽默段子:
「我猜现在他们能以一种安全且道德的方式破产了。」
参考资料:
https://arstechnica.com/information-technology/2024/06/ridiculed-stable-diffusion-3-release-excels-at-ai-generated-body-horror/
https://futurism.com/the-byte/new-stable-diffusion-is-mangled