最近听了一期播客,聊的是视频Agent的生存空间问题,嘉宾是OiiOii的创始人闹闹。她之前在腾讯做产品,后来去了字节做剪映,再到B站负责动画,最后自己出来创业做AI视频Agent。
但让我印象最深的,是她说:你说模型真的强大吗?大家感受到的宣传力度是它非常强大,但你真的去用的时候,很多东西是完成不了的。
看完这期访谈以后,我之前心中很多对AI视频的疑问都得到了解答,比如为什么最好的视频模型都出自中国?推荐所有关注AI视频赛道的朋友,都可以去看一下。
1、最好的视频模型为什么出自短视频平台?很多人会疑惑,腾讯视频、爱奇艺也有海量内容,为什么最后做出顶级视频生成模型的,偏偏是字节和快手这类短视频公司?
闹闹给了一个很有意思的解释,她说视频模型不只是一个技术问题,而是一个生态问题。字节把短视频生态做到了世界领先的位置,而做视频的这些公司,它们是知道怎么去运用数据的。
举个例子,同样一段视频,不同的公司对它的标注方式是完全不一样的。有的公司会找懂3D建模的人来标注,那标注里就会混入很多专业领域的语言。这些专业描述越多越细,模型在用户输入的时候就能响应得越准确。
数据本身不稀缺,中国短视频平台的数据量是全球领先的。但怎么用这些数据,怎么给数据分级,怎么制定标注标准并且让成千上万的标注人员保持一致性,这才是真正的壁垒。Seedance 2.0之所以效果好,很大程度上就是在数据这个层面投入了惊人的资源。算法方面各家的方式方法可能差不多,但数据起到了非常关键性的作用。
2、视频AI和语言AI是两种完全不同的物种我们习惯拿语言模型的发展路径来套视频模型,觉得模型能力越来越强,迟早会吃掉所有应用层的价值。但闹闹提了一个很本质的区别。语言是显性的,每一个字都是明确的。但视频的表达是一种暗示,运镜、光影、景别、剪辑节奏,这些东西不是用文字能精确描述的。打个比方:语言模型在做理性大脑的事情,而视频模型在做感性大脑的事情,它是用理性的方法去做感性的事情,难度完全不在一个量级。
一个好的商业片确实有一些可以被总结的共性规律,但这个规律的颗粒度是粗的,不是零或一的绝对判断,它是相对的好和相对的不好。
闹闹用了一个很精妙的类比:感性的东西像色带一样,赤橙黄绿青蓝紫,远处看它们是分开的,但你凑近看每一个像素点,它好像又有边界又没有边界,是混在一起的。
3、Agent不是套壳,但大多数人做的确实是套壳现在市面上的视频Agent数量井喷,但闹闹认为真正在做视频Agent的可能就两三家。大量涌入的公司更像是中转站,包装了一个Agent的概念,本质上只是把模型接口转了一道。
什么是真正的Agent?她用自己的产品举了个例子,一个普通用户想做一段动画短片,从一句话的创意开始,Agent会自动拆解成剧本、人设、分镜、场景设定、风格选择、视频生成等多个环节。每个环节调用不同的模型,用不同的prompt规则,做不同的优化。光一个镜头的prompt就可能有上千字,普通用户根本写不出来。
同理,在选择模型的时候也不是简单地用一个。MidJourney的手绘风格特别好,但人物一致性很差,那就需要用其他模型来补充。可灵做科幻片和广告片很细腻,但叙事类的切镜做得弱一些。Seedance的话音同步和动作流畅度遥遥领先,但风格保持和真人质感又不如Sora。
做Agent本质上就是在几十个模型里面,针对每一个环节找到最优解,然后把整个链路串起来交付一个可消费的成品。
4、Seedance不是终结者,而是发令枪很多人觉得Seedance 2.0一出来,视频Agent的空间就被压缩了。闹闹承认刚看到宣传的时候确实焦虑过,但冷静下来发现事情没那么简单。
Seedance再强,它依然是一个受prompt约束的模型。而且有一个很现实的问题:AI做视频的成本可能比真人拍还贵。以前一个自媒体花几千块买个相机就能反复用,成本是有限的。但AI生成每做一次就是一次开销,而且没法保证一次就出满意的效果,抽卡抽个七八次是常态。就连豆包这种大厂产品都开始收费了,说明推理成本在当前阶段确实是一个绕不过去的坎。
她的判断是:视频Agent的战场不是因为Seedance而结束,恰恰是因为Seedance才刚刚开始。模型终于能做出真正让人能看的内容了,但从能看到能交付、从可用到好用,中间还有巨大的产品空间。
模型会继续迭代,成本会逐渐下降,生产组织形态会被重塑。但在一个感性驱动的领域里,人对美的判断、对内容的理解、对细节的偏执,这些东西暂时还没法被模型吃掉。这可能就是视频Agent存在的底气,也是所有在AI时代做产品的人值得思考的事。
