ai探索计划 MotionClone是由中国科学技术大学、上海交通大学、香港中文大学和上海人工智能实验室的研究人员共同开发的开源AI视频模型。
1、核心特点
无需训练:摆脱了传统方法中对模型训练或微调的依赖,提高了运动泛化能力,最大程度保留了基座模型的生成质量。
运动克隆:可从参考视频中克隆运动,实现从全局相机运动到局部物体运动的克隆,应用于文本到视频、图像到视频等多种可控视频生成任务。
高质量生成:引入主成分时序注意力运动指导机制,加强生成视频运动幅度的同时保障运动合理性;提出空间语义引导机制,保障空间语义合理布局,促进时序运动和空间语义正确耦合。
2、技术原理
主成分时序注意力引导:在视频反转过程中,利用时序注意力表征参考视频中的运动,仅利用时序注意力中的主要成分对视频生成进行稀疏指导,过滤噪声和细微运动信息的负面影响。
空间语义引导:通过交叉注意力掩码划分视频的前后背景区域,分别约束视频前后背景的语义信息,保障空间语义的合理布局。
3、实验成果
使用DAVIS数据集中的30个视频测试,在文本契合度、时序一致性以及多项用户调研指标上显著提升,超越以往运动迁移方法,在运动保真度、文本对齐和时间一致性方面优势明显。
4、应用前景
为视频创作者、动画师和研究人员等提供了强大工具,可应用于电影制作、媒体宣传、教育内容生成等领域,降低创作门槛,提升创作效率。