Meta 推出的 Apollo 开源模型表现出色,以下是其具体表现: 性能基准测试成绩优异
Apollo-3B:在 LongVideoBench 上得分 55.1,超越了大多数现有的 7B 模型;在 Video-MME 和 MLVU 等基准测试中也取得优异成绩,超过了同规模的 Qwen2-VL 模型1。 Apollo-7B:在与超过 30b 参数的模型竞争中脱颖而出,在 MLVU 上达到 70.9 的高分,在 Video-MME 上取得 63.3 的成绩,与 Oryx-34b 和 Vila1.5-40b 等模型相比毫不逊色1。 模型设计创新
双组件设计:采用两个不同组件,一个处理单独视频帧,另一个跟踪对象和场景随时间变化,能够更全面地理解视频内容,可处理长达一小时的视频,打破传统视频 AI 处理的时限束缚135。 有效采样策略:研究人员发现保持每秒恒定的帧采样率(fps 采样)能获得最佳效果,优于传统的统一帧采样,能更好地捕捉视频中的运动、速度和事件顺序,确保时间流的一致性1。 时间戳的应用:在处理后的视频片段之间添加时间戳,有助于模型建立视觉信息与文本描述之间的联系,从而保持时间感知,更好地理解视频中的语义和语境13。 训练方法及数据组合优化
分阶段训练:Apollo 模型采用分阶段训练方法,按顺序激活模型的不同部分,比一次性训练所有部分效果更为显著,使模型能够有效吸收来自数据的关键信息,提升了训练效率和模型性能135。 数据组合优化:在训练数据中使用 10%-14% 的文本数据,其余部分略偏向视频内容,这种平衡使得模型在语言理解和视频处理能力上都得到了良好发展135。 应用前景广泛
Apollo 模型在教育、监控、广告、内容创作、媒体监测、智能监控、实时翻译和互动娱乐等多个领域都展现出了巨大的应用潜力,例如教育机构可利用其为学生提供人性化学习支持,视频创作者可借助其生成摘要以提升创作效率等1。