金羊财富

豆包App更新实时语音通话功能，中文对话“人机难辨”

来源：金羊网　作者：杭莹　发表时间：2025-01-20 19:37

金羊网作者：杭莹 2025-01-20

可以模仿不同声线，并且在“逻辑思考”和“情绪感知”上有明显提升

1月20日，豆包App更新实时语音通话功能，面向所有用户开放。

该功能基于最新豆包实时语音大模型（Doubao Realtime Voice Model）。更新后，豆包中文场景的对话能力在语音真实感和“喜怒哀乐”的情绪表现上近乎达到“人机难辨”的AI交互效果，可以模仿不同声线，并且在“逻辑思考”和“情绪感知”上有明显提升。

记者测试发现，产品表现上，豆包App全新实时语音通话做到了“人机难辨”的真人级交互程度，其语音表现和智力的拟人性方面有了质的提升。相比大多数语音系统还在语气层面进行粗线条变化，豆包全新实时语音通话功能可以根据场景自动对节奏、儿化音、音量、气音等细节精准把控，甚至能跟你“说”悄悄话。

此外，豆包在喜怒哀乐情绪表现方面也颇为亮眼，还掌握了部分方言与英语对话、多角色模仿，甚至部分歌曲演唱能力。在日常使用中，它既可以是英语陪练老师、讲故事高手，也可以是一位即兴唱作者。

过去，传统语音对话任务系统采用ASR+LLM+TTS的级联模式，无法满足真人级语音对话对理解的完整度、生成的自然度、交互的低延时等各维度的要求。而豆包全新语音能力基于创新的端到端框架，使用原生方法深度融合语音与文本模态进行统一建模。最终可实现从多模态输入直接到多模态输出的效果，赋予AI语音对话“灵魂”。

豆包全新实时语音通话功能与同类产品拉开明显差距，中文对话断崖式领先，同时，情商智商双双在线。据外部真实反馈，用户对豆包此次上线的全新语音通话功能整体满意度为4.36/5，对GPT-4o语音对话满意度则为3.18/5，尤其语音语气自然度和情绪饱满度方面，豆包有明显优势。

文、图丨记者杭莹

编辑：董鹏程

返回顶部