众力资讯网

权威评测榜单Artificial Analysis发布了全新的Speech-to

权威评测榜单Artificial Analysis发布了全新的Speech-to-Speech Index(S2S指数),这是一个综合基准,用于评估原生语音模型在Speech Reasoning(语音推理,如Big Bench Audio)、Conversational Dynamics(对话动态,包括中断处理、轮流对话等Full Duplex Bench)、Agentic Performance(代理性能,如τ-Voice中的端到端客服任务完成)三个维度的表现。加权平均后,OpenAI的GPT-Realtime-2(High)以77.2%领先,Grok Voice Think Fast 1.0紧随其后(75.7%),GPT-Realtime-1.5和Gemini 3.1 Flash Live Preview也表现强劲。同时公布了各模型在延迟(TTFA)和成本方面的对比数据。

过去我们常用STT+TTS管道拼凑语音交互,但原生Speech-to-Speech模型能直接处理语音输入、后台推理并输出语音,这大大降低了延迟和上下文丢失风险,也更接近人类自然的沟通方式。Artificial Analysis通过Big Bench Audio测试推理能力、Full Duplex Bench考察真实对话流畅度、τ-Voice模拟实际客服场景,三者结合形成了一个更贴近产品落地的综合评价体系,这对开发者选择技术栈极具参考价值。