很多企业在部署AI语音客服时,会把"转人工率"和"自动化率"画等号,认为转人工越少越好。这个想法不完全错——但如果把转人工当作系统缺陷来回避,反而容易走到另一个极端:AI该认的错不认、该让的题不让,最终引发投诉或业务差错。
一位银行客服负责人曾在交流中问过一句很实在的话:"什么情况下转人工?客户投诉时直接转还是先解答?"这个问题的背后,是一个企业级通话Agent必须回答的工程问题——转人工决策不是一刀切的"能不能答",而是一组可配置的置信度门控、风险分层和上下文交接机制。
一、为什么转人工不只是"AI答不上来"?
在许多人看来,转人工的逻辑很简单:AI能答就继续,答不上就转人工。但真实客服场景远不止这么简单。
AI能准确识别用户说的话(ASR高置信度),也判断对了用户想做什么(意图高置信度),但这个问题涉及敏感信息查询——比如查询他人订单、查询账户余额、修改已提交的预约——这些操作AI可以执行,但从业务合规角度来说,不应该由AI独立完成。
AI不太确定用户说的是什么(ASR置信度偏低),但这个问题是高频常见咨询——比如"营业时间几点到几点""怎么办理退货"——这类问题即使没听太准,通过追问确认也能安全处理,不需要立即转人工。
AI完全理解了用户意图,也知道答案来源,但知识库里的企业政策昨天刚更新,当前回复口径是否准确还没有经过验证——这种情况下,是让AI按旧口径回答,还是交给人工做最终判断?
这些例子说明:转人工决策的输入,远不止"AI会不会答"这一项。它同时需要评估识别置信度、理解置信度、知识置信度、业务风险等级、当前流程阶段和用户情绪状态。真实客服场景中,AI同时面对来自多个维度的不确定信号,如果多项低置信度或中高风险同时触发,系统就要在"继续追问"、"给出兜底回答"和"立即转人工"之间做选择。这就是转人工决策从简单规则走向多层门控的根本原因。
二、三层置信度门控:AI如何知道自己"可能不对"
企业级通话Agent要判断是否转人工,第一步不是看问题本身,而是评估自身对当前对话的理解质量。这个评估通常分三层进行。
第一层:ASR置信度门控
ASR在每轮语音识别后,会输出一个置信度分数,表示系统对转写结果的"确信程度"。ASR置信度受信号质量影响:安静环境下普通话识别的置信度通常较高,噪声环境、强口音、远讲拾音、电话压缩场景下的置信度会显著下降。
当ASR置信度低于第一道阈值时,系统不应直接回答,而应采取追问、复述确认或提示用户换一种表达方式。如果追问后ASR置信度仍无法恢复到安全区间,则应触发转人工。
ASR置信度区间 | 典型场景 | 处置策略 |
高(>0.85) | 安静环境、标准普通话、近讲 | 正常进入意图识别 |
中(0.65–0.85) | 轻微噪声、轻度口音、电话压缩 | 进入意图识别时标记"待确认",必要时追问 |
低(0.45–0.65) | 强口音、户外风噪、多人交叉说话 | 追问确认,两次追问仍不达标则转人工 |
极低(<0.45) | 严重噪声、设备故障、远讲拾音 | 直接进入友好降级或转人工 |
ASR置信度门控的意义在于:它能拦截"听都没听准就强行回答"的错误路径。但光有ASR置信度还不够,因为很多业务错误不是"没听准"导致的,而是"听准了但判断错了"。
第二层:意图识别置信度门控
如果ASR置信度通过,系统进入意图识别阶段。大模型或分类器输出用户意图判断的同时,也会输出置信度分数或top-2意图分数差。
意图置信度的判断策略与ASR有所不同。核心难点来自意图混淆:用户说"我要取消",意图可能是取消订单、取消预约、取消订阅会员——三者对应的业务流程完全不同。当top-1和top-2意图的置信度差距很小时,系统应当认为意图不够明确,需要澄清而不是直接执行。
意图置信度模式 | 说明 | 处置策略 |
top-1 > 0.9且top-1 - top-2 > 0.2 | 意图明确 | 正常进入后续流程 |
top-1 0.7–0.9且margin > 0.1 | 基本明确但需注意 | 执行时增加确认步骤 |
top-1 < 0.7或margin < 0.1 | 意图模糊,存在混淆 | 主动澄清/追问,确定后再执行 |
多次澄清后仍无法确定 | 系统能力边界 | 转人工 |
意图置信度门控的核心价值在于拦截"听懂了字但没懂意思就乱接话"的路径。真实场景中,用户经常会说半截话、模糊表达、跨话题跳跃——这些意图天然就带不确定性,系统需要学会"承认自己不确定"。
第三层:知识检索置信度门控
即使ASR置信度高、意图明确,知识检索环节仍然可能出问题。知识库可能没有收录用户问的内容(知识缺失),或者检索到了多个相似度接近但答案不同的文档(知识混淆),或者检索到的知识条目已过期尚未更新(知识过期)。
企业级知识库通常使用向量检索+关键词检索+重排序的多阶段检索架构。在最终输出答案前,系统可以从检索结果的最高相似度分数、top-1与top-2的分数差、检索结果的时间戳和知识来源的权威标签等维度评估知识置信度。
对合力亿捷来说,悦问知识库不只是存放FAQ的容器,而是通话Agent进行知识检索、统一服务口径和支撑客服流程的重要基础。当知识按照业务语义、服务流程和风险边界组织起来后,系统可以基于知识命中情况判断"这个回答是否足够确信",这为知识置信度门控提供了可操作的输入。
知识置信度指标 | 说明 | 处置策略 |
最高相似度 > 0.85且margin > 0.15 | 知识命中有信心 | 正常回答 |
最高相似度 0.65–0.85 | 部分命中但不确信 | 在回答中加入免责声明或提示"建议最终以人工确认为准" |
最高相似度 < 0.65 | 知识缺失或检索失败 | 追问转化问题表述重新检索;若仍失败则转人工 |
检测到知识条目过期 | 时间戳超出更新周期 | 标为"不确定"策略,转人工或引导至官方渠道 |
三层门控的联合判断
大多数时候,这三层置信度不是独立工作的。一个高ASR置信度+高意图置信度+低知识置信度的组合,和低ASR置信度+高意图置信度+高知识置信度的组合,会分别触发不同的转人工策略。前者说明"用户说清楚了、系统也理解了、但知识库里没有或不确定",更适合转人工而不是追问;后者说明"系统可能没听准,但用户的问题类型很明确"——这种情况下更适合追问确认,而不是直接转人工。
ASR置信度 | 意图置信度 | 知识置信度 | 典型场景 | 转人工倾向 |
高 | 高 | 高 | 最佳状态 | 不转人工,正常回答 |
高 | 高 | 低 | 用户问的是知识库未覆盖的新业务 | 倾向于转人工 |
高 | 低 | 高 | 用户说的内容清晰但意图模糊 | 追问澄清,不急于转人工 |
低 | 高 | 高 | 噪声干扰了识别但类型明确 | 追问确认具体内容 |
低 | 低 | 低 | 系统几乎没把握 | 立即转人工 |
三、风险分层:同样的不确定,不同场景判断不同
置信度门控解决的是"AI对当前对话有多大把握"的问题。但同样的把握程度,在不同业务场景下应该触发不同的决策。
一个景区问路的标准回答,即使有点偏差,用户也不太会投诉。但一个退款操作、投诉处理或政策口径查询,如果AI答错了,代价可能远高于转人工的成本。风险分层就是在置信度门控之上,再叠加一层"这件事做错会有多严重的后果"的判断。它的核心思路是:不是让AI在所有场景下都用同一套标准做转人工决策,而是按业务风险的差异配置不同的转人工阈值。
风险等级 | 示例场景 | 转人工策略 |
低风险 | 业务咨询、营业时间、地址查询、常见FAQ | 置信度门控正常执行,即使知识不完整也可以用兜底话术 |
中风险 | 订单/物流查询、预约确认、进度查询 | 知识置信度偏低时优先追问确认,不直接转人工 |
高风险 | 退款操作、修改预约、投诉受理、个人信息变更 | 设更严格的置信度门控,任何一层置信度偏低都触发确认或转人工 |
绝对转人工 | 敏感信息查询(他人账户)、投诉升级、法律风险、紧急求助 | 即使AI完全听懂也直接转人工,不经过门控判断 |
绝对转人工场景不需要经过置信度门控。这类场景应当由意图识别阶段直接匹配规则触发转人工,不做任何"AI能不能答"的判断。例如用户明确表达投诉意图、要求转人工、查询他人订单信息、使用强烈情绪词汇——这些场景即使在系统最有把握的情况下,也应该由人工坐席处理。

四、上下文交接:转人工时不能丢信息
置信度门控和风险分层确定了"是否该转"——但转人工不能只做一个转接动作。如果AI花了五分钟采集了客户的订单号、地址、问题描述,转人工后人工坐席问客户"请问您需要什么帮助"——客户需要重新描述一遍,这个转人工对用户来说就是负体验。
上下文交接要解决的核心问题是:怎么把AI已经知道的信息完整、准确地传递给人工坐席。一个生产级的上下文交接至少包含以下信息单元:
• 对话摘要:用户来电原因、已经完成的操作、尚未完成的操作
• 已采集字段:已完成采集的槽位(订单号、手机号、地址等)
• 当前执行状态:业务流程卡在哪一个环节
• 转人工原因:为什么触发转人工(置信度过低?风险过高?用户主动要求?)
• 用户情绪标记:是否出现激烈表达、多次重复、长时间等待
这些信息需要在转人工触发时被序列化成一个结构化的上下文包,传递给人工坐席系统。人工坐席工作台接收到这个上下文包后,可以解析并展示为转人工摘要、客户画像卡片、工单草稿或直接弹出业务查询结果。
从技术实现角度看,上下文交接不是一次性的"对话结束后打包",而是在对话过程中持续维护一份增量上下文记录。每一次槽位采集、每一次意图确认、每一次工具调用结果,都实时写入这份记录。当转人工触发时,系统只需要把这份已经维护好的上下文序列化输出,而不是从头开始汇总对话历史。
合力亿捷的通话Agent在复杂问题转人工时,会保留客户意图、对话摘要和已采集信息,人工坐席接手时可以看到转人工原因、当前流程状态和已获取的业务字段,不需要让客户从头再说一遍。
FAQ
Q:转人工率是不是越低越好?
A:不是。转人工率是衡量人机分工合理性的参考指标,不是自动化效果的目标。盲目的低转人工率可能导致"AI硬答"引发投诉或业务差错。更合理的评估方式是看转人工适当性——该转的转到位、不该转的不乱转。
Q:如何判断转人工策略是否合理?
A:可以从三个维度评估:一是误转率,即AI本可以处理的任务被错误转人工的比例;二是漏转率,即应该转人工但AI继续处理的比例;三是转人工后客户重复率,即转人工后客户是否仍需要重复描述问题——这反映上下文交接是否完整。
Q:高风险场景的转人工阈值设多少才合适?
A:不存在通用阈值。不同行业、不同业务场景的风险偏好差异很大。建议先基于业务损失矩阵定义不同错误类型的代价,再反推置信度阈值。医疗、金融等高敏感场景建议从保守阈值起步,通过灰度验证逐步优化。
