在智能客服里,RAG已经不是陌生概念。很多企业都希望AI客服能够接入企业知识库,在回答售后政策、业务规则、服务流程、票务说明、导诊指引、政务事项等问题时,不再只依赖大模型的通用知识,而是基于企业内部的可信内容生成答案。
在文本客服场景中,这个逻辑相对容易理解:用户发来问题,系统检索知识库,找到相关内容,再生成回答。但当RAG进入实时语音场景,问题会变得更复杂。电话里的用户不会安静地等待系统检索、重写问题、召回文档、整理上下文、生成答案。用户只会感受到:AI是不是卡住了?是不是没听懂?为什么电话里突然沉默?
实时语音RAG的难点不只是“能不能找到知识”,而是如何在保持知识准确性的同时,维持电话对话的连续性。
一、文本RAG可以“等一等”,语音RAG不能让电话空白
在文本客服里,用户发出一句话后,等待几秒看到回答,并不会特别突兀。因为文本交互天然可以异步,用户能看到输入框、加载状态或对话气泡。但电话不同。电话是一种实时交互,用户说完后,如果AI长时间没有声音,就容易判断系统没听见、没听懂、电话断了、AI卡住了,甚至会重复说一遍或直接要求转人工。
RAG链路通常包括 Query 理解、Query Rewrite、知识召回、知识排序、上下文组织、答案生成和依据追溯。每个环节都有价值,但在语音场景中也都会引入等待。
环节 | 作用 | 在语音场景中的挑战 |
Query理解 | 判断用户真正想问什么 | 用户表达口语化、跳跃、不完整 |
Query Rewrite | 将口语问题改写成更适合检索的问题 | 改写过度可能偏离原意,改写不足召回不准 |
知识召回 | 从知识库中找到相关内容 | 文档多、知识散、口径相似,检索耗时增加 |
知识排序 | 判断哪些内容更适合回答 | 多条规则冲突时需要筛选 |
上下文组织 | 将知识片段提供给模型 | 上下文过长会增加生成延迟 |
答案生成 | 生成适合用户理解的回复 | 电话播报不能太长,也不能太书面 |
依据追溯 | 保留回答来源或知识依据 | 需要可审计,但不一定适合逐条播报 |
这些步骤在文本场景中可以顺序执行;但在电话场景里,如果完全串行,用户会明显感受到等待。因此,实时语音RAG要解决的第一个问题,就是如何把知识检索纳入实时对话节奏,而不是让知识库检索打断电话体验。
二、语音场景里的Query,比文本问题更难检索
很多企业知识库原本是为人工客服或文本机器人准备的,里面存放的是标准问法、FAQ、政策说明、业务流程和操作规范。但用户在电话里不会按知识库标题提问。
他可能会说:“我这个维修是不是还得收费?”“那个票能不能改到明天?”“我上次报过修,怎么还没人联系?”“我这种情况到底挂哪个科?”“孩子身份证没带,还能进去吗?”“我想问一下那个补贴,材料是不是少了一个?”
这些问题有几个共同特点:表达口语化、指代不清楚、信息不完整、多意图混合、语音识别会引入误差。语音RAG不能简单把ASR转写结果直接丢进知识库检索。否则可能出现两类问题:一类是召回不准,用户说的是“改签门票”,系统却检索到了“退票规则”;另一类是召回过多,系统召回了一堆相似政策,模型需要花更多时间判断,电话里就会出现等待。
实时语音RAG需要在检索前做更强的Query理解和Query Rewrite。不是把用户的话机械改写成书面语,而是结合业务场景判断用户真正要问的是哪类知识。例如用户说“这个修还要钱吗”,在制造售后场景中,可能需要改写为“该产品当前故障是否属于保修范围,是否需要收取维修费用”。用户说“我这种情况挂哪个科”,在医疗导诊场景中,可能需要改写为“根据患者描述,提供科室咨询和挂号流程指引,并提示诊断治疗类问题转人工或线下就医”。
这种改写背后,考验的是系统对客服业务语义的理解,而不只是文本检索能力。
三、知识切片决定RAG能不能又快又准
RAG效果好不好,很大程度取决于知识库怎么组织。如果知识切片太大,一次检索返回一整篇长文,模型需要在大量上下文里寻找答案,生成速度会变慢,也更容易引入不相关内容。如果知识切片太小,规则被切得过碎,系统可能只召回局部信息,导致回答不完整。
例如,一个售后政策文档里可能同时包含保修范围、非保修情形、收费标准、上门服务说明、不同地区差异、特殊产品规则、人工审核要求。如果把整篇文档作为一个知识块,检索结果太长;如果切得太碎,又可能只召回“收费标准”,漏掉“非保修情形”和“人工审核要求”。
面向客服场景的知识切片,不能只按段落长度机械切分,而要考虑业务语义。
知识类型 | 切片重点 | 适合回答的问题 |
规则类知识 | 适用条件、例外条件、边界说明 | 是否收费、是否可退、是否能办理 |
流程类知识 | 步骤、材料、时间、入口 | 怎么办理、需要准备什么 |
产品类知识 | 型号、功能、故障现象、解决办法 | 产品怎么用、故障怎么处理 |
场景类知识 | 不同用户情况和处理策略 | 我的情况怎么办 |
风险类知识 | 禁止回答、转人工、人工审核条件 | 医疗、金融、投诉、敏感事项 |
话术类知识 | 对外表达口径 | 如何向用户解释 |
对合力亿捷来说,悦问知识库不只是存放FAQ的容器,而是通话Agent进行知识检索、统一服务口径和支撑客服流程的重要基础。当知识按照业务语义、服务流程和风险边界组织起来,通话Agent才能在实时语音场景中更快找到可用内容,而不是把整篇文档交给模型临时判断。
四、Context Caching:高频问题不应该每次都重新检索
在客服场景中,用户问题高度集中。很多热线每天都会反复出现类似问题:营业时间、退改规则、保修政策、门店地址、订单查询入口、发票开具、预约流程、材料清单、常见故障处理、人工服务时间。
如果每一次都从头理解问题、检索知识、组织上下文、生成回答,系统不仅成本更高,也会增加响应时间。Context Caching,或者说上下文缓存、知识缓存的价值就在这里。
对于高频、稳定、低风险的问题,系统可以提前准备更适合语音播报的知识片段和回答结构。用户询问时,通话Agent不必每次都完整执行长链路检索,而是可以优先命中缓存内容,再根据上下文做必要调整。
但缓存不是简单存答案。客服场景里的缓存要考虑知识是否仍然有效,是否有区域、门店、产品或时间差异,是否涉及用户身份,是否需要调用动态系统,是否存在风险边界,是否需要版本更新。例如“景区营业时间”可能随季节变化;“售后收费规则”可能因产品型号不同而不同;“政策办理材料”可能因地区和用户身份不同而不同。
合力亿捷将悦问知识库与通话Agent结合时,高频知识、业务流程和风险边界需要共同管理。这样既可以提升回答速度,也能避免旧知识、错知识或不适用知识被持续使用。
五、检索预取:在用户说完之前,系统可以先准备一部分知识
实时语音RAG还有一个重要思路:检索预取。在电话对话中,用户说话是连续的。系统不一定要等用户完整说完后,才开始判断可能需要哪些知识。
例如用户说:“我想问一下保修……”此时系统已经可以初步判断,用户可能在询问售后政策或保修范围。当用户继续说:“我这个已经买了两年了,还能免费修吗?”系统可以进一步将查询范围收窄到“保修期限、收费规则、非保修条件”。
这类检索预取并不是直接提前回答,而是在不影响用户表达的前提下,提前准备可能相关的知识候选。它的价值在于减少用户说完后的等待时间。当然,检索预取也有风险。如果系统过早判断意图,可能检索错方向。它更适合做候选准备,而不是直接决策。
在合力亿捷通话Agent中,这类思路可以与语音理解、知识库、流程编排协同:当用户意图逐渐明确时,系统可以提前准备知识、字段和工具路径;当用户表达完整后,再决定是直接回答、继续追问、调用系统,还是转人工处理。
六、Streaming RAG:回答不是等知识全部处理完才开始
在文本RAG中,系统通常会先完成检索,再生成完整回答。但在语音场景中,完全等待所有知识处理完再开口,容易造成明显停顿。
Streaming RAG 的思路,是让检索、生成和播报尽可能流式协同。它并不意味着知识还没确认就随便回答,而是根据回答结构拆分不同部分。第一部分,可以先给出确认性回应,例如“我帮您看一下这个规则”;第二部分,可以说明正在查询或核对,例如“这类情况通常需要结合产品型号和购买时间判断”;第三部分,在知识检索完成后,再给出具体答复;第四部分,必要时进入追问或办理。
这种结构让电话不再是“用户说完——系统沉默——AI一次性播报”,而是保持连续对话。但Streaming RAG也需要控制边界。在知识尚未确认前,AI不能先给出结论;在涉及医疗、金融、政务、投诉等高风险内容时,也不能为了缩短等待而提前下判断。
七、RAG不应该替代流程判断
在客服场景中,有些问题适合RAG,有些问题并不适合只靠RAG。用户问“退票规则是什么”,适合通过知识库检索并回答。用户问“帮我把明天的票退了”,这就不是单纯知识问答,而是业务办理,需要确认订单、规则、身份、退款条件和系统接口。用户问“我这个症状挂什么科”,可能需要导诊知识,但涉及诊断和治疗边界时,需要谨慎提示或转人工。
用户问题类型 | 处理方式 |
规则咨询 | 调用知识库回答 |
流程说明 | 检索流程知识并引导下一步 |
动态查询 | 调用业务系统或Tools |
办理请求 | 进入流程编排和确认机制 |
投诉反馈 | 创建工单或转人工 |
高风险问题 | 提示边界并转人工 |
信息不完整 | 继续追问槽位 |
这也是合力亿捷将悦问知识库、MPaaS流程编排和通话Agent结合的原因。知识库解决“答得准”;流程编排解决“下一步怎么走”;工具调用解决“能不能办理”;转人工解决“复杂问题谁来接”。
八、引用依据:语音场景不一定要逐条播报,但必须可追溯
RAG的一个重要价值,是让AI回答有依据。在文本客服里,系统可以展示知识来源、文档标题、引用片段或相关链接。但在电话场景中,逐条播报引用依据通常并不现实。用户打电话时,不希望听到“根据知识库文档第三章第二节第六条……”。
但这不代表语音RAG不需要依据。企业客服更需要的是后台可追溯:这次回答参考了哪些知识,使用的是哪个版本的知识,是否命中了风险边界,是否发生了知识冲突,是否被人工修正,是否进入质检和Badcase复盘。对用户端,AI可以用自然语言说明“根据当前售后规则”“按照景区票务说明”“这个问题涉及人工审核,我帮您转接”。对企业端,系统则需要保留知识命中、回答摘要、转人工原因和质检记录。
九、实时语音RAG的目标,是让服务更连续、更准确
RAG进入客服场景后,很多企业第一反应是让AI多接知识库、多回答问题。但在实时语音场景中,真正重要的不是“知识接得多”,而是“回答是否准确、对话是否连续、流程是否可控”。
企业级实时语音RAG需要同时解决三件事:准确性、响应速度、流程连续性。合力亿捷将悦问知识库、RAG检索、业务流程编排和通话Agent结合,正是为了让语音Agent在回答政策、售后、导诊、票务等问题时,既能调用企业知识,又能维持对话连续性。
