长文本、长图文、长语音全搞定，讯飞星火V3.5全能升级！

4月26日，星火大模型V3.5春季上新，业界首次实现对长篇幅文本、复杂图文内容及长时间语音信息的高效处理与精准理解。该模型在众多行业领域展现出了卓越的专业素养，能迅速吸收并应对各类信息挑战，提供富有情感色彩的回应，同时引入创新的情感模拟技术，赋予AI更具人性化的语音特质。此次升级还包括一键声音复制功能，极大丰富了人机互动的真实感。

首发长文本、长图文、长语音大模型

为什么科大讯飞要做长文本、长图文、长语音的大模型？

通过讯飞星火APP可以看到，用户使用的最高峰不是周末，而是工作日的上午9:30和下午3:30。这意味着，大部分用户用讯飞星火来解决和工作相关的刚需问题。

而高效的知识获取是用户和开发者都高度关注的问题。科大讯飞分析发现，在知识获取和学习的过程中，广大用户能拿到的资料往往不仅是现成的长文本，还有随手可见的报刊书籍内容、各种研讨会的PPT内容，老师黑板上的板书、同学的笔记，以及各种会议录音、访谈，各种网上的发布会、培训教育视频等，能不能把这些文本、图片、语音等都上传到讯飞星火中，快速地获取知识？

为此，科大讯飞推出首个支持长文本、长图文、长语音的大模型，来解决用户真实场景中多源信息的获取需求。本次讯飞星火长文本功能全新升级后，具备长文档信息抽取、长文档知识问答、长文档归纳总结、长文档文本生成等能力，总体已经达到GPT-4 Turbo 4月最新长文本版本的97%水平，而在银行、保险、汽车、电力等多个垂直领域的知识问答任务上，讯飞星火长文本总体水平已经超过GPT-4 Turbo。长文本功能的落地需要解决信息高效处理的问题：面对上百万甚至上千万文字，长文本大模型消耗的运算资源非常大。

为了解决大模型应用效率和准确率问题，科大讯飞董事长刘庆峰说，基于讯飞星火V3.5对长文本的理解、学习、回答能力，科大讯飞进行了重要的模型剪枝和蒸馏，从而推出业界性能最优的130亿参数的大模型，在效果损失仅3%以内的情况下，使得星火在文档上传解析处理、知识问答的首响时间以及文字生成方面都获得了极大的效率提升。测试显示，在保障长文本效果的情况下，无论是10K、64K、128K token，还是更长的文本，星火大模型的性能都做到业界最优。

面向复杂的图文场景，科大讯飞在图文识别、公式识别大赛多年国际第一的技术积累基础上，首次推出星火图文识别大模型。相比传统小模型逐行文字识别的限制，星火图文识别大模型能够直接处理非常复杂的版面分析，目前已经覆盖31个典型场景，比如书刊、学术论文、专利、报纸、海报、PPT等，同时能自动识别标注出18类不同的版面要素，比如页眉、页脚、标题、段落、表格、公式、印章、手写等。

此外，面对广泛的音视频信息高效获取需求，科大讯飞也推出长语音功能，将国际领先的语音识别和翻译技术结合起来，可以实现会议录音、学习视频等的一键研读，实现音视频场景的高效知识获取。

能“情感共鸣”，还能“一句话声音复刻”

万物互联时代下需要更真实的AI语音交互。年初讯飞星火V3.5发布会上，科大讯飞推出了超拟人对话功能，AI的声音更自然更真实，拟人度达到了83%，受到用户的广泛欢迎。无论是语音可懂度、流畅度还是表现力，效果均超过OpenAI、微软。此次科大讯飞发布多情感超拟人合成，进一步提升了情绪表达的可感知度，对高兴、抱歉、安慰、撒娇、困惑等情绪表达的可感知度达到85%以上，AI语音的生动、真实性再度提升。除了超拟人对话，科大讯飞还推出“一句话声音复刻”功能，一句话就可以定制你的AI助手声音。比如模仿小朋友的声音，每天给爷爷奶奶读书读报；在我们出差的时候，模仿我们的声音给孩子讲故事。这个功能可以让世界变得更有温度。

科大讯飞通过其持续的创新与努力，成功打造了一个具备高度人性化交互体验的智能大模型，不仅满足了用户在长文本、长图文、长语音处理方面的需求，更通过引入情感模拟技术，让AI的回应更加贴近人心。未来，我们有理由期待科大讯飞在人工智能领域继续书写更多辉煌篇章，让技术真正服务于人类，让生活因AI而更加美好。

众力资讯网

长文本、长图文、长语音全搞定，讯飞星火V3.5全能升级！

科技新鲜资讯