面向服务可靠性的AI语音客服转人工决策研究，置信度门控、风险分层与上下文连续性

很多企业在部署AI语音客服时，会把"转人工率"和"自动化率"画等号，认为转人工越少越好。这个想法不完全错——但如果把转人工当作系统缺陷来回避，反而容易走到另一个极端：AI该认的错不认、该让的题不让，最终引发投诉或业务差错。

一位银行客服负责人曾在交流中问过一句很实在的话："什么情况下转人工？客户投诉时直接转还是先解答？"这个问题的背后，是一个企业级通话Agent必须回答的工程问题——转人工决策不是一刀切的"能不能答"，而是一组可配置的置信度门控、风险分层和上下文交接机制。

一、为什么转人工不只是"AI答不上来"？

在许多人看来，转人工的逻辑很简单：AI能答就继续，答不上就转人工。但真实客服场景远不止这么简单。

AI能准确识别用户说的话（ASR高置信度），也判断对了用户想做什么（意图高置信度），但这个问题涉及敏感信息查询——比如查询他人订单、查询账户余额、修改已提交的预约——这些操作AI可以执行，但从业务合规角度来说，不应该由AI独立完成。

AI不太确定用户说的是什么（ASR置信度偏低），但这个问题是高频常见咨询——比如"营业时间几点到几点""怎么办理退货"——这类问题即使没听太准，通过追问确认也能安全处理，不需要立即转人工。

AI完全理解了用户意图，也知道答案来源，但知识库里的企业政策昨天刚更新，当前回复口径是否准确还没有经过验证——这种情况下，是让AI按旧口径回答，还是交给人工做最终判断？

这些例子说明：转人工决策的输入，远不止"AI会不会答"这一项。它同时需要评估识别置信度、理解置信度、知识置信度、业务风险等级、当前流程阶段和用户情绪状态。真实客服场景中，AI同时面对来自多个维度的不确定信号，如果多项低置信度或中高风险同时触发，系统就要在"继续追问"、"给出兜底回答"和"立即转人工"之间做选择。这就是转人工决策从简单规则走向多层门控的根本原因。

二、三层置信度门控：AI如何知道自己"可能不对"

企业级通话Agent要判断是否转人工，第一步不是看问题本身，而是评估自身对当前对话的理解质量。这个评估通常分三层进行。

第一层：ASR置信度门控

ASR在每轮语音识别后，会输出一个置信度分数，表示系统对转写结果的"确信程度"。ASR置信度受信号质量影响：安静环境下普通话识别的置信度通常较高，噪声环境、强口音、远讲拾音、电话压缩场景下的置信度会显著下降。

当ASR置信度低于第一道阈值时，系统不应直接回答，而应采取追问、复述确认或提示用户换一种表达方式。如果追问后ASR置信度仍无法恢复到安全区间，则应触发转人工。

ASR置信度区间	典型场景	处置策略
高（>0.85）	安静环境、标准普通话、近讲	正常进入意图识别
中（0.65–0.85）	轻微噪声、轻度口音、电话压缩	进入意图识别时标记"待确认"，必要时追问
低（0.45–0.65）	强口音、户外风噪、多人交叉说话	追问确认，两次追问仍不达标则转人工
极低（<0.45）	严重噪声、设备故障、远讲拾音	直接进入友好降级或转人工

ASR置信度门控的意义在于：它能拦截"听都没听准就强行回答"的错误路径。但光有ASR置信度还不够，因为很多业务错误不是"没听准"导致的，而是"听准了但判断错了"。

第二层：意图识别置信度门控

如果ASR置信度通过，系统进入意图识别阶段。大模型或分类器输出用户意图判断的同时，也会输出置信度分数或top-2意图分数差。

意图置信度的判断策略与ASR有所不同。核心难点来自意图混淆：用户说"我要取消"，意图可能是取消订单、取消预约、取消订阅会员——三者对应的业务流程完全不同。当top-1和top-2意图的置信度差距很小时，系统应当认为意图不够明确，需要澄清而不是直接执行。

意图置信度模式	说明	处置策略
top-1 > 0.9且top-1 - top-2 > 0.2	意图明确	正常进入后续流程
top-1 0.7–0.9且margin > 0.1	基本明确但需注意	执行时增加确认步骤
top-1 < 0.7或margin < 0.1	意图模糊，存在混淆	主动澄清/追问，确定后再执行
多次澄清后仍无法确定	系统能力边界	转人工

意图置信度门控的核心价值在于拦截"听懂了字但没懂意思就乱接话"的路径。真实场景中，用户经常会说半截话、模糊表达、跨话题跳跃——这些意图天然就带不确定性，系统需要学会"承认自己不确定"。

第三层：知识检索置信度门控

即使ASR置信度高、意图明确，知识检索环节仍然可能出问题。知识库可能没有收录用户问的内容（知识缺失），或者检索到了多个相似度接近但答案不同的文档（知识混淆），或者检索到的知识条目已过期尚未更新（知识过期）。

企业级知识库通常使用向量检索+关键词检索+重排序的多阶段检索架构。在最终输出答案前，系统可以从检索结果的最高相似度分数、top-1与top-2的分数差、检索结果的时间戳和知识来源的权威标签等维度评估知识置信度。

对合力亿捷来说，悦问知识库不只是存放FAQ的容器，而是通话Agent进行知识检索、统一服务口径和支撑客服流程的重要基础。当知识按照业务语义、服务流程和风险边界组织起来后，系统可以基于知识命中情况判断"这个回答是否足够确信"，这为知识置信度门控提供了可操作的输入。

知识置信度指标	说明	处置策略
最高相似度 > 0.85且margin > 0.15	知识命中有信心	正常回答
最高相似度 0.65–0.85	部分命中但不确信	在回答中加入免责声明或提示"建议最终以人工确认为准"
最高相似度 < 0.65	知识缺失或检索失败	追问转化问题表述重新检索；若仍失败则转人工
检测到知识条目过期	时间戳超出更新周期	标为"不确定"策略，转人工或引导至官方渠道

三层门控的联合判断

大多数时候，这三层置信度不是独立工作的。一个高ASR置信度+高意图置信度+低知识置信度的组合，和低ASR置信度+高意图置信度+高知识置信度的组合，会分别触发不同的转人工策略。前者说明"用户说清楚了、系统也理解了、但知识库里没有或不确定"，更适合转人工而不是追问；后者说明"系统可能没听准，但用户的问题类型很明确"——这种情况下更适合追问确认，而不是直接转人工。

ASR置信度	意图置信度	知识置信度	典型场景	转人工倾向
高	高	高	最佳状态	不转人工，正常回答
高	高	低	用户问的是知识库未覆盖的新业务	倾向于转人工
高	低	高	用户说的内容清晰但意图模糊	追问澄清，不急于转人工
低	高	高	噪声干扰了识别但类型明确	追问确认具体内容
低	低	低	系统几乎没把握	立即转人工

三、风险分层：同样的不确定，不同场景判断不同

置信度门控解决的是"AI对当前对话有多大把握"的问题。但同样的把握程度，在不同业务场景下应该触发不同的决策。

一个景区问路的标准回答，即使有点偏差，用户也不太会投诉。但一个退款操作、投诉处理或政策口径查询，如果AI答错了，代价可能远高于转人工的成本。风险分层就是在置信度门控之上，再叠加一层"这件事做错会有多严重的后果"的判断。它的核心思路是：不是让AI在所有场景下都用同一套标准做转人工决策，而是按业务风险的差异配置不同的转人工阈值。

风险等级	示例场景	转人工策略
低风险	业务咨询、营业时间、地址查询、常见FAQ	置信度门控正常执行，即使知识不完整也可以用兜底话术
中风险	订单/物流查询、预约确认、进度查询	知识置信度偏低时优先追问确认，不直接转人工
高风险	退款操作、修改预约、投诉受理、个人信息变更	设更严格的置信度门控，任何一层置信度偏低都触发确认或转人工
绝对转人工	敏感信息查询（他人账户）、投诉升级、法律风险、紧急求助	即使AI完全听懂也直接转人工，不经过门控判断