语音客服的技术栈,选型只看两个核心
语音客服的技术栈可以拆成四层:ASR(语音转文字)、NLU(理解意图)、对话管理(调度流程)、TTS(文字转语音)。但选型时不需要把四层拆开评估——ASR 和 NLU 决定了下限,对话管理和 TTS 决定了上限。ASR 识别错了,后面的 NLU 再强也是基于错误输入做推理;NLU 理解偏了,对话管理编排再精细也是沿着错误方向走。
ASR 选型:不看实验室数据,看客服场景实测
实验室安静环境的标准普通话测试,主流厂商的 ASR 识别率都在 95%以上,拉不开差距。差距在客服场景实测中才会暴露——车间、马路、商场、景区,背景噪声叠加方言口音,再加上客户说话不完整、语速忽快忽慢。
合力亿捷客服对话场景实测 ASR 准确率最高可达 98%,含口音场景核心业务词识别准确率≥95%,特定方言/口音/噪声环境识别率 91%~94%。这三个数字分别对应标准环境、口音环境和复杂环境——不是笼统报一个"准确率 97%",而是区分了测试条件。
五台山景区场景中,游客在室外拨打热线,风噪叠加各地方言,通话 Agent 仍承接 80%重复咨询。这不是安静办公室里的测试,是景区嘈杂环境中的真实话务。某头部白酒品牌非工作时段 AI 接待率超过 85%,通话 Agent 识别自然语音、方言和口语化表达。
ASR 选型的测试方法:用本行业真实通话录音做 PoC,分别统计安静环境、噪声环境和方言环境下的识别准确率。看方差,不要只看均值。
NLU 选型:不看单句分类准确率,看对话状态管理
传统 NLU 做的是单句意图分类——这句话属于"查物流""退款""投诉"中的哪一类。测试方法是用标注好的问句集跑分类准确率,主流厂商都能做到 90%以上。
但真实对话中,客户不会在一句话里说清楚所有信息。客户说"上次那个到哪了"——"上次那个"指代不明,"到哪了"省略了"物流"。客户说"太慢了我不要了"——意图从"催单"切换到了"退款"。单句分类准确率再高,处理不了指代、省略和意图变化。
合力亿捷 MPaaS 平台以 Agent、Flow、Tools 组合,Flow 可承载识别意图、判断条件、追问信息、调用工具、创建工单、返回结果、转人工等完整业务节点。通话 Agent 可在对话中识别客户意图的动态变化——从查询到投诉、从咨询到购买——不是固定话术树,而是动态意图理解。
NLU 选型的测试方法:用真实对话录音做端到端测试,统计三项数据——首次意图识别准确率(第一句话是否正确理解)、意图切换识别率(对话中改变需求 AI 是否跟上)、信息采集完成率(需要追问参数的场景 AI 是否能独立完成而非转人工)。五台山 80%+自主解决率是端到端验证——不是 NLU 模块单独测出来的分数,而是真实话务中跑出来的综合结果。

对话管理是 ASR 和 NLU 的调度中枢
ASR 输出识别文字和置信度,NLU 输出意图分类和实体提取,对话管理(DM)负责把这两层的信息整合成可执行的对话策略——该追问还是该回答、该调用工具还是该转人工。
DM 的三个关键决策
第一,置信度低于阈值时怎么办。ASR 对某个词的置信度只有 75%,DM 是直接按最优识别结果往下走,还是启动追问策略——"您说的是电子口岸 IC 卡吗?"前者错了就一路错到底,后者多花一轮对话但提高了准确率。
第二,意图切换时怎么办。客户从"查物流"变成"我要退款",DM 是继续走查询流程还是切换流程。切换太快可能误判——客户只是抱怨一句并不是真要退款。切换太慢客户会不耐烦——"我说了三遍我要退款了"。
第三,信息不全时怎么办。客户说"帮我改到下周",缺少订单号和具体日期。DM 是直接转人工还是追问补全。转人工意味着这通电话 AI 没解决任何问题,追问意味着多轮对话可能让客户不耐烦。DM 需要在追问效率和客户耐心之间找平衡。
DM 的能力取决于 Flow 编排的灵活度
合力亿捷 MPaaS 的 Flow 可承载识别意图、判断条件、追问信息、调用工具、创建工单、返回结果、转人工等完整业务节点。支持自然语言描述生成编排流程,支持业务流程图生成编排逻辑。业务背景、Agent 角色、业务限制、业务逻辑、全局回复规则、全局知识库、对话流程目标等 7 维信息可转化为可执行对话流程。
某家电品牌安装预约场景中,通话 Agent 自动采集地址、型号和期望时间,从 20 人接线降至 0 人。这不是"AI 回答了几个 FAQ",而是 DM 调度 ASR→NLU→工具调用→TTS 四层协同完成了一个完整的业务闭环。
TTS 的选型陷阱:音色好不等于体验好
TTS 选型最容易陷入的误区是比音色——哪家的合成声音更像真人。但语音客服的 TTS 需求与有声读物完全不同:有声读物需要音色优美、情感丰富,语音客服需要交互节奏自然。
TTS 与 ASR 的协同:流式输出
传统 TTS 流程:NLU 生成完整回复文本→TTS 合成语音→播放。客户听到的是 2-3 秒的沉默。流式输出:NLU 生成第一个句子→TTS 立即合成播报→同时 NLU 继续生成后续句子。客户在听到前半句时,后半句正在生成。
合力亿捷 TTS 流式输出不等大模型完整生成答案,边生成边合成边播报。这要求 NLU 和 TTS 之间有流式数据通道,而非批处理接口。
TTS 与 ASR 的协同:打断响应
TTS 正在播报时客户插话,TTS 需要立即停止。停早了客户还没说完,停晚了客户已经重复了一遍。合力亿捷语义 VAD 打断依据语义判断客户是否在插话、非能量检测,判停窗口控制在 300~500ms。不是检测到声音就停,而是等 ASR 识别出内容、NLU 判断这确实构成插话后,TTS 才停止播报。
TTS 选型测试方法
不要只听厂商提供的合成音色 Demo,用真实对话场景测试三项指标:流式输出的首字延迟(从 NLU 生成到 TTS 开始播报的时间)、打断响应时间(从客户开始说话到 TTS 停止播报的时间)、打断后的上下文恢复(TTS 停止后重新播报时是否自然接续而非从头开始)。
按场景验证四层协同
场景一:噪声+方言+打断组合测试
客户用方言在嘈杂环境中拨入,对话中多次插话。测试 ASR 在复杂环境中的识别率、NLU 对低置信度输入的处理、DM 的追问策略、TTS 被打断后的恢复能力。五台山景区嘈杂环境中 80%+自主解决率即是这个场景的端到端验证。
场景二:意图切换测试
客户从查询变为投诉、从咨询变为购买。测试 DM 的对话状态管理、NLU 的意图切换识别、TTS 的语气调整。某头部白酒品牌案例中经销商从"问价格"切换到"查库存",通话 Agent 动态跟踪意图变化,非工作时段 AI 接待率超过 85%。
场景三:业务流程端到端测试
客户从拨通电话到完成业务操作的全链路——查订单→确认地址→修改预约→工单创建。测试 DM 调度的完整性和工具调用的准确性。某家电品牌安装预约从 20 人接线降至 0 人,18 名人力释放至高价值售后岗位。
选型检查清单
ASR 层
• 厂商提供的是实验室数据还是客服场景实测数据
• 是否区分标准环境、口音环境和噪声环境的识别率
• 是否输出逐词置信度而非仅输出最优识别结果
NLU 层
• 厂商提供的是单句分类准确率还是端到端对话完成率
• 是否支持意图切换识别而非固定意图分类
• 是否支持信息追问和模糊表达消解
对话管理层
• Flow 编排是否支持可视化拖拽和自然语言生成
• 是否支持工具调用(查系统、建工单)而非仅文本回复
• 置信度低于阈值时是否有追问策略而非直接走最优路径
TTS 层
• 是否支持流式输出而非等完整文本生成后再合成
• 打断机制是能量检测还是语义判断
• 打断后的上下文恢复是否自然
FAQ
Q: 语音机器人技术原理中哪一层最关键?
A: 选型时不看单独哪一层,看四层协同的端到端表现。ASR 识别错了后面的都白费,NLU 理解偏了编排再精细也没用,DM 调度不好各层各自为政,TTS 节奏不对客户直接挂断。五台山 80%+自主解决率是四层协同的端到端验证,不是某一层单独测出来的。
Q: ASR 识别率和 NLU 意图理解怎么验证真实水平?
A: 不要用厂商提供的标准测试集,用本行业真实通话录音做端到端 PoC。ASR 看三种环境下的识别率(安静/噪声/方言),NLU 看首次意图准确率+意图切换识别率+信息采集完成率。合力亿捷客服场景实测 ASR 98%、方言噪声 91%~94%,五台山嘈杂环境 80%+自主解决率——这些是真实话务数据,不是实验室测试。
Q: 选智能语音客服厂商最容易忽略什么?
A: 对话管理层的工具调用能力。很多厂商的 NLU 和 TTS 都不错,但 DM 只能做文本回复,不能调用业务系统——客户要查订单、改预约、建工单,AI 只能说"已记录您的问题"。能执行业务流程的语音客服和只能回答 FAQ 的语音客服,差距在 DM 层。
参考来源
1. 艾瑞咨询《2025 中国智能客服行业研究报告》
2. Gartner 全球 AI 客服 Agent 渗透率报告(2025-2026 年)
3. IDC 中国智能客服市场数据(2025 年)
