Meta 推出 Apollo 开源模型，表现如何？

Meta 推出的 Apollo 开源模型表现出色，具体如下袛听：

性能基准测试成绩优异： Apollo-3B：在 LongVideoBench 上得分 55.1，超越了大多数现有的 7B 模型；在 Video-MME 和 MLVU 等基准测试中也取得优异成绩，超过了同规模的 Qwen2-VL 模型。 Apollo-7B：在与超过 30b 参数的模型竞争中脱颖而出，在 MLVU 上达到 70.9 的高分，在 Video-MME 上取得 63.3 的成绩，与 Oryx-34b 和 Vila1.5-40b 等模型相比毫不逊色。创新的双组件设计：采用两个不同组件，一个处理单独视频帧，另一个跟踪对象和场景随时间变化，能够更全面地理解视频内容，可处理长达一小时的视频，打破传统视频 AI 处理的时限束缚。有效的采样策略：研究人员发现保持每秒恒定的帧采样率（fps 采样）能获得最佳效果，优于传统的统一帧采样，能更好地捕捉视频中的运动、速度和事件顺序，确保时间流的一致性。时间戳的应用：在处理后的视频片段之间添加时间戳，有助于模型建立视觉信息与文本描述之间的联系，从而保持时间感知，更好地理解视频中的语义和语境。训练方法及数据组合优化：分阶段训练：采用分阶段训练方法，按顺序激活模型的不同部分，比一次性训练所有部分效果更为显著，使模型能够有效吸收来自数据的关键信息，提升了训练效率和模型性能。数据组合优化：在训练数据中使用 10%-14% 的文本数据，其余部分略偏向视频内容，这种平衡使得模型在语言理解和视频处理能力上都得到了良好发展。

众力资讯网

Meta 推出 Apollo 开源模型，表现如何？

热门分类