众力资讯网

分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音

编辑|陈萍、Panda 继 SAM(Segment Anything Model)、SAM 3D 后,Meta 又有

编辑|陈萍、Panda

继 SAM(Segment Anything Model)、SAM 3D 后,Meta 又有了新动作。

深夜,Meta 放出音频分割模型 SAM Audio,其通过多模态提示(无论是文本、视觉,还是标注时间片段),让人们能够轻松地从复杂的音频混合中分离出任意声音,从而彻底改变音频处理方式。

SAM Audio 的核心是 Perception Encoder Audiovisual(PE-AV),这是推动其实现业界领先性能的技术引擎。

PE-AV 基于 Meta 今年早些时候开源发布的 Perception Encoder 模型,能够支持更先进的计算机视觉系统,帮助人们完成日常任务,其中就包括声音检测。

你可以把 PE-AV 想象成帮助 SAM Audio 运作的耳朵,而 SAM Audio 则是完成音频分割任务的大脑。这两者的结合带来了许多令人兴奋的应用场景。

设想一下:一段乐队演出的录像,只需在画面中点击一下吉他,就能单独分离出吉他的声音。SAM Audio 还可以通过文本提示进行音频分离,比如从户外拍摄的视频中滤除嘈杂的交通噪声。此外,Meta 业内首创的时间跨度提示(span prompts),可以帮助人们一次性解决整段音频中的问题,例如在整期播客录音中去除持续出现的狗叫声等噪音。

Meta 表示,他们正在利用这些技术进展来构建下一代创意媒体工具。相关团队看到了大量潜在的应用场景,包括音频清理、背景噪声移除,以及其他能够帮助用户提升创造力的工具。此次,Meta 向社区开放了 SAM Audio 和 PE-AV,并同时发布了两篇研究论文,分别深入介绍了这两个模型的技术细节。此外,Meta 还发布了:

SAM Audio-Bench:首个真实环境(in-the-wild)的音频分离基准; SAM Audio Judge:首个用于音频分离的自动评测模型。

Meta 还将上述所有成果整合进 Segment Anything Playground,这是一个全新的平台,任何人都可以在其中体验其最新模型。

地址:https://aidemos.meta.com/segment-anything

从即日起,用户可以从平台提供的音频和视频素材库中进行选择,或上传自己的内容,以探索 SAM Audio 的能力。Meta 表示,他们期待继续围绕 SAM 展开讨论 —— 而这一次,也将首次听到用户使用这些突破性新模型所创作出的内容。

用于音频分割的统一多模态提示模型

在此之前,音频分割和编辑一直是一个较为割裂的领域,市面上存在着多种只针对单一用途的工具。作为一个统一模型,SAM Audio 首次支持多种交互方式,这些方式与人们自然理解和思考声音的方式高度契合,并在多项任务上实现了业界领先的性能,包括在文本提示和视觉提示条件下的乐器、人声以及通用声音分离。

SAM Audio 能够在多样且真实的应用场景中稳定运行,支持使用文本、视觉以及时间维度的线索进行音频分割。这种方法为用户提供了对音频分离过程更精确、更直观的控制能力。

该模型提供了三种音频分割方式,这些方式既可以单独使用,也可以灵活组合,以实现所需的分割效果:

文本提示:输入「狗叫声」或「歌唱声」等描述,即可提取对应的特定声音。 视觉提示:在视频中点击正在说话的人或发声的物体,即可分离其对应的音频。 时间跨度提示(Span Prompting):业内首创的方法,允许用户标记目标声音出现的时间片段,从而实现更精确的音频分割。

SAM Audio 论文地址:https://ai.meta.com/research/publications/sam-audio-segment-anything-in-audio/ 代码地址:https://github.com/facebookresearch/sam-audio

模型架构

从核心技术上看,SAM Audio 采用了一种基于流匹配扩散 Transformer 的生成式建模框架。该架构接收一段混合音频以及一个或多个提示信息,将它们编码为共享表示,并生成目标音轨与剩余音轨。

在生成式建模框架之外,研究团队还为 SAM Audio 构建了一套完整的数据引擎,用于解决大规模、高质量音频分离数据难以获取的问题。该数据引擎融合了先进的音频混合技术、自动化的多模态提示生成方法,以及稳健的伪标签(pseudo-labeling)pipeline,从而生成贴近真实应用场景的训练数据,用于提升模型在现实世界中的表现。

该模型基于这一多样化的数据集进行训练,数据集涵盖了真实与合成的混合音频,内容横跨语音、音乐以及各类通用声音事件。先进的音频数据合成策略进一步提升了模型的鲁棒性,确保其在各种复杂环境中都能保持稳定、可靠的表现。

感知编码器(视听版)

第二个模型 PE-AV 是支撑 SAM Audio 效果表现的核心引擎。它为多个关键组件提供能力支持,包括主字幕生成模型以及 SAM Audio Judge(用于音频分离的自动评测模型)。

PE-AV 论文地址:https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/ 代码地址:https://github.com/facebookresearch/perception_models

PE-AV 构建于 Meta Perception Encoder 之上,这是 Meta 于今年 4 月发布的一个开源模型。在此基础上,PE-AV 将先进的计算机视觉能力扩展到了音频领域。正如团队此前在 SAM 3 中将该模型适配用于目标检测一样,这一次又进一步扩展了其框架,使其能够对声音进行编码,从而支持 SAM Audio 对复杂音频混合的分离,并适应那些视觉上下文同样重要的真实世界应用场景。

通过提取逐帧级别的视频特征并将其与音频表示进行对齐,系统能够融合视听信息并为其加上精确的时间标注。这种设计使 SAM Audio 能够准确分离那些在视觉上有明确对应的声源,例如画面中的说话者或正在演奏的乐器,同时也可以结合场景上下文,对画面外发生的声音事件进行推断。

PE-AV 通过在精确的时间点上对齐视频帧与音频,提供了稳健且语义信息丰富的特征表示。这种时间对齐机制对于将所见与所闻进行匹配至关重要,是实现高精度多模态音频分离的基础。如果缺少这一能力,模型将无法获得足够细粒度的视觉理解,从而难以实现灵活且符合人类感知的音频分割效果。

从技术层面来看,PE-AV 融合了多种开源组件和前沿研究成果。除 Meta 的 Perception Encoder 之外,该模型还使用 PyTorchVideo 进行高效的视频处理,利用 FAISS 实现大规模语义搜索,并引入了对比学习框架来提升多模态表示能力。

PE-AV 基于超过 1 亿条视频进行训练,采用大规模多模态对比学习方法,训练数据来自开放数据集以及合成字幕生成流水线,从而确保了数据覆盖的广泛性和模型的强泛化能力。这些要素共同构建了一个灵活且高性能的基础架构,能够支持文本、视觉和时间维度的提示方式,适用于多种音频分离与理解任务。

SAM Audio Judge

Meta 还发布了 SAM Audio Judge,这是一套全新的评测框架与模型,旨在以更加贴近人类感知方式来评估音频分割质量。与传统依赖参考音轨进行对比的评测指标不同,这些指标往往难以捕捉人类真实听感中的细微差别,SAM Audio Judge 提供了一种无需参考音频的客观评测方式,从感知层面对分割后的音频进行评价。

用户可以借助 SAM Audio Judge,在音乐、语音以及音效等不同场景下,对音频分离模型进行评测和比较,从而深入了解输出质量以及音频分离任务本身的内在难度。SAM Audio Judge 的构建始于对 9 个感知维度的定义,其中包括召回率(recall)、精确度(precision)、忠实度(faithfulness)和整体质量(overall quality)等。随后,研究团队依据详细的标注规范,采用五分制量表收集了大量人工评分数据。

在模型设计上,SAM Audio Judge 结合了先进的音频与文本编码器、Transformer 主干网络,以及一种独特的预训练策略,用于提升模型判断输出是否符合文本提示的能力。感知对齐的评测标准、严谨的数据采集流程与创新的模型架构相结合,为推动音频分离领域的发展提供了有力支撑。

SAM Audio-Bench

此外,为了在不同任务之间对模型性能进行一致且有意义的评估,该团队还构建了一个新基准:SAM Audio-Bench。

这是一个全面的音频分离基准,覆盖了所有主要音频领域。包括语音、音乐和通用音效。同时也覆盖了文本、视觉以及时间段提示等多种提示类型。

该团队表示:「该基准能够对分离模型进行公平评测。从而确保该领域的进展是可衡量的。并且与日常使用场景密切相关。」

该团队表示,这种方法可确保 SAM Audio-Bench 更加真实且更具灵活性。它支持从语音和音乐分离,到乐器以及通用声音提取等多种任务。所有能力都统一在一个框架之中。

SAM Audio-Bench 还率先引入了无参考评估(reference-free evaluation)方式。

这使得在不需要孤立参考音轨的情况下,也可以评估音频分离效果。它结合了人工听感测试与 SAM Audio Judge 模型。即使原始音轨不可用,也能提供可靠的评估结果。

通过融合真实世界音频、多模态提示,以及对不同声音领域的全面覆盖,可以说 SAM Audio-Bench 为音频分离系统的测试树立了新标准。这一标准能更好地反映模型在实验室之外的实际使用方式。

结果

SAM Audio 在音频分离技术上取得了显著进展。它在多种基准和任务上超越了此前的最先进模型。

该模型不仅在通用音频分离方面显著领先于以往工作,还在所有音频类别上达到了最佳领域专用模型的性能水平。这些类别包括语音、音乐以及通用声音。

其多模态提示机制支持文本、视觉和点击式输入。这使得模型能够进行灵活、开放域的音频分割。因此既适用于真实环境中的应用,也适用于专业音频场景。

性能评估表明,SAM Audio 在各类模态特定任务中均达到了 SOTA 水平。

混合模态提示方式表现尤为突出。例如将文本与时间段提示结合使用。其效果优于单一模态的方法。

值得注意的是,该模型的运行速度快于实时处理。实时因子约为 0.7 (RTF ≈ 0.7)。在 5 亿到 30 亿参数规模下,都能高效地进行大规模音频处理。

尽管 SAM Audio 在质量和效率方面树立了新标准,但它仍存在一些局限。

目前不支持以音频本身作为提示。 在没有任何提示的情况下进行完整音频分离,也不在其能力范围内。 在高度相似的音频事件之间进行分离仍然具有挑战性。例如从合唱中分离出单一歌手,或从交响乐中分离出某一种乐器。

展望:音频 AI 的未来

该 Meta 团队表示,SAM Audio 属于 Segment Anything 模型家族,这次也是将音频能力引入了该系列模型。「我们相信 SAM Audio 是目前综合表现最强的音频分离模型。这种统一的方法也为理解复杂声学环境提供了新的可能性。并且能够跨多种模态,对自然提示作出响应。」

此外,Meta 还宣布与美国最大的助听器制造商 Starkey 以及一家面向残障创始人的领先创业加速器 2gether-International 建立了合作关系。这两个合作伙伴都在探索,像 SAM Audio 这样的模型可以如何进一步推动无障碍技术的发展。

Meta 表示:「这种音频工具的普及推广,是迈向更易用、更具创造力、更加包容的 AI 的一步。具备音频感知能力的 AI 未来才刚刚开始。我们期待并支持未来涌现出的创新与发现。」

参考链接

https://ai.meta.com/blog/sam-audio/

https://x.com/AIatMeta/status/2000980784425931067

文章视频链接:

https://mp.weixin.qq.com/s/-4fkFz0cV5iqGl_4sJ1c3g