众力资讯网

刚刚!美团开源AI长视频模型LongCat-Video,小参数强性能

过去一年,全球AI视频生成的战场异常热闹:

OpenAI推出Sora,震惊全网;Runway、Pika、Kling、Wan各显神通;可直到今天,国内终于出现了一个真正能打的开源长视频模型,它的名字叫LongCat-Video,来自美团。

从“图生视频”到“世界模型”,美团这步棋不小

LongCat-Video是美团团队打造的基础级视频生成大模型,拥有136亿参数(13.6B),它能同时完成三类任务:

Text-to-Video:文字生成视频

Image-to-Video:图像生成视频

Video-Continuation:视频续写

这意味着,你不仅可以输入一句话生成视频,也可以让它从一张图“长出”完整的动态画面,甚至能让旧视频“续拍下去”,实现真正意义上的连续世界建模。

简单说,这是一只会“自己拍电影”的猫。

统一架构,打破任务壁垒

LongCat最大的创新之一,是采用了统一架构(UnifiedArchitecture)。

传统的视频生成模型往往针对不同任务各自独立,比如“图生视频”“文生视频”要分开训练,互不兼容;而LongCat用一个模型同时支持三类任务,在训练和推理上能实现知识共享,让模型在多任务中表现更加平衡。

这种设计的好处,是它能从不同模态中学到通用的视觉—语义映射,最终提升生成稳定性与画面一致性。

真正的“长视频生成”,不是拼接,而是连续

LongCat在Video-Continuation(视频续写)上进行了原生预训练,能生成分钟级视频,并且在长时序里依然保持稳定色彩、光线与运动逻辑,这点很关键。

过去的视频生成模型通常只能输出几秒钟片段,要拼成长视频,只能靠后期拼接。结果就是:光影断层、人物消失、场景跳帧。

LongCat解决了这一“断片”问题,让生成视频的逻辑连贯性大幅提升。简单来说,它不再是“拼贴动画”,而是真正的故事流动。

高效推理与强化学习的双引擎

LongCat使用了多项效率与质量兼顾的技术:

720p、30fps视频可在数分钟内生成;

使用BlockSparseAttention提升高分辨率推理速度;

采用多奖励强化学习(Multi-rewardRLHF)框架,让模型同时优化“文本对齐”“视觉质量”“动作连贯”三项指标。

在算法层面,美团提出了自己的GRPO(GroupRelativePolicyOptimization),这是一种改良版的RLHF(人类反馈强化学习)策略,使视频生成不再依赖单一评价维度,而能多指标协同进化。

性能对比:小参数,强性能

在美团自测的MOS(主观质量评估)基准中,LongCat-Video以13.6B参数的体量,表现几乎追平甚至超越部分28B级别的开源模型。

在参数量仅一半的情况下,LongCat的综合表现已追平Wan2.2系列。

这意味着:更轻、更快、更稳。

LongCat-Video采用MITLicense,这也是目前最宽松的商业开源协议之一。任何个人、企业都可以在遵守协议前提下自由商用。模型已同步上传至HuggingFace。

从“短视频AI”到“世界模型”的拐点

LongCat-Video不只是又一个“文生视频”模型,而是美团通往WorldModel(世界模型)的起点。

所谓“世界模型”,指的是AI能理解并持续模拟现实世界的动态规律。换句话说,AI不仅能画出画面,还能理解“为什么这个人会往前走”、“为什么云会动”、“为什么光会变”。

LongCat就像是“现实模拟引擎”的早期形态。它生成的,不只是视频,而是连续的因果世界。

国产AI视频的拐点已至

LongCat-Video的开源,意味着:

中国团队首次在长视频生成方向实现自主可控的完整体系;

算法、算力、生态三位一体的国产替代路径逐步成形;

美团AI团队,正在从“商业智能”跨向“生成智能”。

未来,这只“长猫”也许会出现在美团商拍系统、视频号、短剧生产、广告创意,甚至机器人仿真训练中。

如果Sora代表了硅谷的梦境,那么LongCat,就是属于东方工程师的觉醒。

一只长猫,正试图用AI的方式,把世界拍给你看。

这是中国视频生成模型迈向“连续宇宙”的第一步。

美团LongCat,不只是一个模型,它是未来电影的底层引擎。(转自AI普瑞斯)