刚刚！美团开源AI长视频模型LongCat-Video，小参数强性能

过去一年，全球AI视频生成的战场异常热闹：

OpenAI推出Sora，震惊全网；Runway、Pika、Kling、Wan各显神通；可直到今天，国内终于出现了一个真正能打的开源长视频模型，它的名字叫LongCat-Video，来自美团。

从“图生视频”到“世界模型”，美团这步棋不小

LongCat-Video是美团团队打造的基础级视频生成大模型，拥有136亿参数（13.6B），它能同时完成三类任务：

Text-to-Video：文字生成视频

Image-to-Video：图像生成视频

Video-Continuation：视频续写

这意味着，你不仅可以输入一句话生成视频，也可以让它从一张图“长出”完整的动态画面，甚至能让旧视频“续拍下去”，实现真正意义上的连续世界建模。

简单说，这是一只会“自己拍电影”的猫。

统一架构，打破任务壁垒

LongCat最大的创新之一，是采用了统一架构（UnifiedArchitecture）。

传统的视频生成模型往往针对不同任务各自独立，比如“图生视频”“文生视频”要分开训练，互不兼容；而LongCat用一个模型同时支持三类任务，在训练和推理上能实现知识共享，让模型在多任务中表现更加平衡。

这种设计的好处，是它能从不同模态中学到通用的视觉—语义映射，最终提升生成稳定性与画面一致性。

真正的“长视频生成”，不是拼接，而是连续

LongCat在Video-Continuation（视频续写）上进行了原生预训练，能生成分钟级视频，并且在长时序里依然保持稳定色彩、光线与运动逻辑，这点很关键。

过去的视频生成模型通常只能输出几秒钟片段，要拼成长视频，只能靠后期拼接。结果就是：光影断层、人物消失、场景跳帧。

LongCat解决了这一“断片”问题，让生成视频的逻辑连贯性大幅提升。简单来说，它不再是“拼贴动画”，而是真正的故事流动。

高效推理与强化学习的双引擎

LongCat使用了多项效率与质量兼顾的技术：

720p、30fps视频可在数分钟内生成；

使用BlockSparseAttention提升高分辨率推理速度；

采用多奖励强化学习（Multi-rewardRLHF）框架，让模型同时优化“文本对齐”“视觉质量”“动作连贯”三项指标。

在算法层面，美团提出了自己的GRPO（GroupRelativePolicyOptimization），这是一种改良版的RLHF（人类反馈强化学习）策略，使视频生成不再依赖单一评价维度，而能多指标协同进化。

性能对比：小参数，强性能

在美团自测的MOS（主观质量评估）基准中，LongCat-Video以13.6B参数的体量，表现几乎追平甚至超越部分28B级别的开源模型。

在参数量仅一半的情况下，LongCat的综合表现已追平Wan2.2系列。

这意味着：更轻、更快、更稳。

LongCat-Video采用MITLicense，这也是目前最宽松的商业开源协议之一。任何个人、企业都可以在遵守协议前提下自由商用。模型已同步上传至HuggingFace。

从“短视频AI”到“世界模型”的拐点

LongCat-Video不只是又一个“文生视频”模型，而是美团通往WorldModel（世界模型）的起点。

所谓“世界模型”，指的是AI能理解并持续模拟现实世界的动态规律。换句话说，AI不仅能画出画面，还能理解“为什么这个人会往前走”、“为什么云会动”、“为什么光会变”。

LongCat就像是“现实模拟引擎”的早期形态。它生成的，不只是视频，而是连续的因果世界。

国产AI视频的拐点已至

LongCat-Video的开源，意味着：

中国团队首次在长视频生成方向实现自主可控的完整体系；

算法、算力、生态三位一体的国产替代路径逐步成形；

美团AI团队，正在从“商业智能”跨向“生成智能”。

未来，这只“长猫”也许会出现在美团商拍系统、视频号、短剧生产、广告创意，甚至机器人仿真训练中。

如果Sora代表了硅谷的梦境，那么LongCat，就是属于东方工程师的觉醒。

一只长猫，正试图用AI的方式，把世界拍给你看。

这是中国视频生成模型迈向“连续宇宙”的第一步。

美团LongCat，不只是一个模型，它是未来电影的底层引擎。（转自AI普瑞斯）

众力资讯网