火爆的DeepSeek也无法掩盖豆包语音对话的划时代意义! 1月20日头条的AI模型豆包悄然上线了语音对话功能,这不仅仅是一个简单的功能叠加,而会是一个划时代的应用开端。 首先,全球第一个语音接入到语言模型是新加坡的技术团队早于豆包不到一个星期实战的。豆包语音的迅速实战显然也是自主研发的成果。 在应用层面,谷歌的AI翻译早在2023年就号称可以超越人类的翻译能力了,但是在“同声传译”层面却一直难以实现。根本原因就是无法实现语音接入语言模型。 传统的同声传译的实战过程是:接收语音—使用语音识别将语音转换为文字—文字送入语言模型—语言模型将文字翻译成英文—使用语音合成将文字合成为语音送还给用户。 这么一个过程必然导致翻译的过程很慢,经常是对方说话后一两分钟后,翻译的结果才出来,完全无法满足同声传译的需求。 而语言模型可以直接接收语音就意味着同声传译的过程简化为:语音接入语言模型—语言模型翻译为英文—语言模型直接将语音送回!这样的过程完全可以实现实时的语音翻译。 现在豆包所缺乏的就是一套成熟的AI翻译,一旦豆包将AI翻译实现(这个比实现语音接入简单的多),如下场景的应用: 1.看美剧不用再看字幕了,直接使用定制的豆包耳机可以实时翻译成中文; 2.出国也不用使用那些不靠谱的翻译APP了,直接使用豆包的耳机和随身音箱,和外国人无障碍沟通; 3.最解恨的是中小学学校里英语将不再是必须的课程!人类的语言沟通不再因语言不同而存在障碍!
火爆的DeepSeek也无法掩盖豆包语音对话的划时代意义! 1月20日头条的AI
刘普洛夫斯基的体育故事
2025-02-07 12:48:25
0
阅读:0