Meta推出Apollo开源模型,表现如何?

二胖看世界 2025-01-14 13:36:30

Meta 推出的 Apollo 开源模型表现出色,具体如下袛听:

性能基准测试成绩优异: Apollo-3B:在 LongVideoBench 上得分 55.1,超越了大多数现有的 7B 模型;在 Video-MME 和 MLVU 等基准测试中也取得优异成绩,超过了同规模的 Qwen2-VL 模型。 Apollo-7B:在与超过 30b 参数的模型竞争中脱颖而出,在 MLVU 上达到 70.9 的高分,在 Video-MME 上取得 63.3 的成绩,与 Oryx-34b 和 Vila1.5-40b 等模型相比毫不逊色。 创新的双组件设计:采用两个不同组件,一个处理单独视频帧,另一个跟踪对象和场景随时间变化,能够更全面地理解视频内容,可处理长达一小时的视频,打破传统视频 AI 处理的时限束缚。 有效的采样策略:研究人员发现保持每秒恒定的帧采样率(fps 采样)能获得最佳效果,优于传统的统一帧采样,能更好地捕捉视频中的运动、速度和事件顺序,确保时间流的一致性。 时间戳的应用:在处理后的视频片段之间添加时间戳,有助于模型建立视觉信息与文本描述之间的联系,从而保持时间感知,更好地理解视频中的语义和语境。 训练方法及数据组合优化: 分阶段训练:采用分阶段训练方法,按顺序激活模型的不同部分,比一次性训练所有部分效果更为显著,使模型能够有效吸收来自数据的关键信息,提升了训练效率和模型性能。 数据组合优化:在训练数据中使用 10%-14% 的文本数据,其余部分略偏向视频内容,这种平衡使得模型在语言理解和视频处理能力上都得到了良好发展。

0 阅读:3