很多企业最开始接触语音Agent时,关注的是两个问题:

一个是能不能听懂用户说什么。
另一个是能不能像真人一样自然回答。
这两个问题当然重要。但如果回到企业客服现场,会发现它们还不是最终目标。
用户打电话来,往往不是为了和AI完成一次顺畅对话,而是为了把某件事办完:
查一笔订单,确认一次预约,登记一个报修,查询一个工单进度,核实一条通知,修改一个上门时间,或者把复杂问题交给人工继续处理。
所以,企业级通话Agent的价值不只是“接起电话”,也不只是“回答问题”,而是要把用户的一句话接入企业真实业务流程,让电话服务从“能听懂”走向“能办理”。
这正是合力亿捷通话Agent与普通语音机器人的关键差异。
普通语音机器人更像一个语音问答入口,重点在于识别问题、匹配答案、完成播报。而企业级通话Agent必须进入更复杂的链路:识别意图、补齐字段、检索知识、调用工具、执行业务规则、创建工单、回写系统、判断转人工,并在整个过程中保持上下文和服务连续性。
换句话说,通话Agent真正难的不是“听懂一句话”,而是把这句话变成一次可执行、可追踪、可兜底的业务动作。

一、从“理解意图”到“完成任务”,中间隔着一整条业务链路

在客服场景中,用户表达通常是不完整的。
用户可能只说:
“我想查一下订单。”
但系统真正要完成查询,还需要知道:
  • 查哪一个订单;

  • 用户身份是否能确认;

  • 用手机号、订单号还是会员ID查询;

  • 后端订单系统是否可用;

  • 查询结果能否直接播报;

  • 是否涉及隐私信息;

  • 如果查不到,应该追问还是转人工;

  • 查询结果是否需要生成服务记录。

这说明,“理解用户想查订单”只是第一步。

真正的任务执行,需要经过一条更长的链路:


阶段关键问题对通话Agent的要求
意图识别用户到底想办什么判断是查询、报修、预约、投诉、回访确认还是政策咨询
槽位采集办这件事还缺哪些信息采集手机号、订单号、地址、型号、时间、门店等字段
流程判断当前信息是否足够进入下一步判断继续追问、调用接口、给出答案还是转人工
知识检索用户问的是规则、流程还是说明调用知识库返回准确口径
工具调用是否需要连接业务系统查询订单、创建工单、预约确认、CRM/ERP调用
结果校验系统返回是否可信、完整、可播报处理空结果、异常结果、接口超时和权限边界
回复生成如何让用户听懂下一步用自然语言播报结果、提示补充信息或说明转人工
服务闭环本次服务是否完成记录结果、生成摘要、同步人工、进入质检或工单


这就是为什么企业级通话Agent不能只看ASR识别率,也不能只看大模型回答质量。

因为用户真正关心的是:这通电话有没有把事情推进下去。

二、槽位采集:业务执行的第一道门槛

在语音Agent里,槽位采集是一个很容易被低估的能力。
所谓槽位,可以简单理解为完成一项业务动作所需要的关键信息。
例如,订单查询需要订单号、手机号或会员信息;安装预约需要地址、产品型号、期望时间;设备报修需要故障现象、购买时间、所在城市和联系方式;满意度回访需要确认用户身份、服务事项和评价结果。
这些字段看起来简单,但在真实电话中非常容易出问题。
用户不会按照表单顺序说话。他可能先说问题,再补手机号;也可能说到一半改口;也可能把订单号分成几段念;还可能说“你等一下,我找一下短信”。
例如:
“我想查一下物流,手机号是138……等一下,好像是我老婆下的单,尾号2468。”
这句话里包含多个信息点,也包含不确定性。系统不能只抓到“查物流”就直接调用接口,也不能机械地要求用户重新按标准格式回答。
企业级通话Agent需要判断:
  • 当前任务需要哪些字段;

  • 用户已经给了哪些字段;

  • 哪些字段可能不准确;

  • 哪些字段需要复述确认;

  • 哪些字段可以通过上下文补齐;

  • 哪些字段缺失时必须继续追问;

  • 哪些字段涉及隐私或权限边界。

这也是合力亿捷通话Agent将语音理解接入业务执行链路时的重要基础。AI不是简单接收一句话,而是要把用户自然表达转成结构化业务信息,再交给后续流程使用。

三、Function Calling不是“模型想调什么就调什么”

很多人谈大模型Agent时,会提到Function Calling或Tool Calling。
但在企业客服场景中,工具调用不能理解为“模型想调用什么接口就调用什么接口”。这会带来明显风险。
比如用户说:
“帮我取消一下明天的预约。”
如果模型直接调用取消接口,可能会出现几个问题:
  • 用户身份是否已确认;

  • 是否确定是“取消”而不是“改期”;

  • 预约事项是否允许取消;

  • 是否需要二次确认;

  • 是否涉及费用或违约规则;

  • 接口调用失败怎么办;

  • 取消后是否需要短信通知;

  • 是否需要生成服务记录。

所以,企业级Tool Calling不是简单把大模型接到API上,而是要有工具定义、参数校验、权限边界、确认机制、异常处理和流程控制。

可以把一次工具调用拆成下面几层:


工具调用环节工程要求客服场景示例
工具选择判断是否真的需要调用工具用户问“物流到哪了”,需要查询物流系统
参数提取从语音中提取必要字段订单号、手机号、门店、城市、预约时间
参数校验判断字段是否完整、格式是否合理手机号位数、订单号长度、地址是否缺失
二次确认对高风险动作进行确认取消预约、修改地址、提交投诉
接口调用连接CRM、ERP、订单、工单等系统查询、创建、更新、回写
异常处理处理超时、失败、空结果重新追问、稍后通知、转人工
结果转述把系统返回转成用户能听懂的话“您的工单已受理,预计今天下午联系”
记录沉淀形成服务记录或工单摘要便于人工跟进和后续质检


合力亿捷MPaaS以Agent、Flow、Tools组织客服智能体,价值就在于把这些动作纳入可编排、可控制、可运营的流程中,而不是让大模型孤立地生成回答。

在这个体系中,Agent代表服务角色,Flow承载业务流程,Tools连接订单查询、物流查询、客户信息查询、工单创建、预约确认、CRM/ERP调用等具体业务动作。通话Agent通过语音与用户交互,但真正支撑业务执行的是背后的流程编排和工具调用体系。

四、RAG负责“答得准”,Tools负责“办得动”

在业务执行型通话Agent中,RAG和工具调用承担的是不同任务。
RAG更适合解决“该怎么回答”的问题。
例如:
  • 售后政策怎么解释;

  • 景区门票规则是什么;

  • 报修流程有哪些步骤;

  • 医疗导诊如何说明就诊流程;

  • 政务事项需要哪些材料;

  • 会员权益和活动规则如何解释。

这类问题的核心是知识准确性。系统需要从企业知识库中找到可靠内容,再生成适合电话播报的回答。
Tools更适合解决“该怎么办理”的问题。
例如:
  • 查询订单状态;

  • 查询物流轨迹;

  • 查询工单进度;

  • 创建报修工单;

  • 修改预约时间;

  • 触发短信通知;

  • 将服务结果回写CRM。

这类问题的核心是系统动作。AI必须调用业务接口,获得真实数据或完成真实操作。
如果RAG和Tools混在一起,容易出现问题。
用户问“我的维修进度到哪了”,只查知识库是不够的,因为维修进度是动态数据;用户问“报修需要准备什么材料”,直接调用工单系统也不必要,因为这属于规则说明。
因此,企业级通话Agent需要判断:
  • 当前问题是知识问答,还是业务办理;

  • 是静态规则,还是动态数据;

  • 是可以直接回答,还是必须调用系统;

  • 是可以自动办理,还是需要人工确认;

  • 是低风险动作,还是高风险操作。

合力亿捷通话Agent通过MPaaS的流程编排,将知识库检索、工具调用、业务规则和人工协同组织到同一条服务链路中,让语音Agent既能“答得准”,也能“办得动”。

五、状态机与流程编排:让AI服务不失控

企业客服流程往往不是开放式闲聊,而是有明确路径的业务过程。
例如报修流程可能是:
  1. 判断用户是否要报修;

  2. 采集产品型号;

  3. 询问故障现象;

  4. 采集购买时间;

  5. 确认联系地址;

  6. 判断是否满足上门条件;

  7. 创建工单;

  8. 告知受理结果;

  9. 必要时转人工。

这个流程中,每一步都有状态。
用户可能随时打断、补充、修改、跳转话题。AI如果没有状态管理,很容易出现三类问题:
第一,重复追问。
用户已经说过手机号,系统后面又问一次。
第二,字段丢失。
用户前面已经提供型号,系统在建单时没有带上。
第三,流程跳错。
还没确认地址,就直接进入工单创建。
因此,业务执行型通话Agent需要通过状态机或流程编排来管理对话进度。
状态机的价值,是让AI知道当前处在哪一步、下一步该做什么、哪些信息已经采集、哪些信息仍然缺失、哪些动作需要确认、哪些异常需要兜底。
流程编排的价值,是把客服业务规则转化为可执行路径。
例如:
  • 如果订单号缺失,继续追问;

  • 如果用户无法提供订单号,尝试手机号查询;

  • 如果接口超时,告知用户稍后处理或转人工;

  • 如果用户情绪激动,优先转人工;

  • 如果问题属于专业判断,不由AI直接处理;

  • 如果工单创建成功,播报工单号并记录摘要。

这也是“模型会回答”和“Agent能办事”的差异。
模型可以生成一句听起来合理的话,但企业级Agent要确保每一步都能落到流程、工具、规则和结果上。

六、异步接口调用:真实系统不一定总是马上返回

在Demo中,很多接口调用看起来很顺利。
但在真实企业环境里,业务系统并不总是秒级响应。
CRM可能返回慢;订单系统可能需要多个条件查询;工单系统可能存在权限校验;预约系统可能要判断时段容量;物流接口可能短暂失败;客户自建系统还可能存在网络延迟或并发压力。
这意味着,通话Agent不能假设所有工具调用都会马上成功。
企业级Agent必须设计异步接口调用和异常兜底机制。
比如:
  • 查询中,先告诉用户“我正在为您查询”;

  • 接口超时,提示“系统查询时间较长,我帮您转人工继续处理”;

  • 查询结果为空,继续追问其他信息;

  • 字段不完整,回到槽位采集;

  • 接口失败,记录失败原因并生成工单;

  • 高风险动作,要求用户确认后再执行;

  • 已执行动作,需要回写结果和服务记录。

这些机制决定了用户感受到的是“系统正在处理”,还是“AI卡住了”。
合力亿捷通话Agent把语音交互、流程状态、工具调用和转人工衔接结合起来,不只是让AI在电话里回答用户,而是让AI在业务系统不确定、信息不完整、接口可能异常的情况下,仍然能保持服务连续性。

七、任务成功率:比“回答得像不像”更重要

很多语音Agent测试会关注识别率、回答准确率和响应速度。
但对于企业客服来说,还需要一个更关键的指标:任务成功率。
也就是这通电话有没有完成原本要完成的事。
例如:
  • 用户想查订单,是否成功查到了;

  • 用户想报修,是否成功创建工单;

  • 用户想改预约,是否完成改期或进入人工处理;

  • 用户想咨询政策,是否得到准确口径;

  • 用户想投诉,是否进入正确处理流程;

  • 外呼确认,是否成功采集用户反馈并回传结果。

如果AI回答得很流畅,但没有完成查询、没有创建工单、没有采集关键字段、没有转人工,也不能算真正成功。

所以,业务执行型通话Agent的评估,不应该只看“对话是否自然”,还要看:


指标说明
意图识别成功率是否正确识别用户要办的事
槽位采集完整率关键字段是否采集齐全
工具调用成功率是否正确调用业务系统
任务完成率用户目标是否被推进或完成
异常兜底率接口失败、信息缺失时是否有处理策略
转人工衔接率复杂问题是否顺畅交给人工
业务记录完整性是否沉淀摘要、工单、标签或质检信息


这些指标比单纯“机器人解决率”更能反映企业级Agent的真实价值。
因为企业需要的不是一个会聊天的AI,而是一个能进入服务流程、减少人工重复操作、提高业务处理效率的AI员工。

八、不同场景里的“完成任务”,含义并不一样

业务执行不是一个抽象概念。不同场景下,通话Agent要完成的任务完全不同。


场景用户目标通话Agent要完成的动作
制造售后报修、查进度、确认上门采集型号和故障,创建工单,查询进度
零售门店咨询订单、会员、售后查询订单、解释规则、分流人工
景区热线问票务、路线、演出、投诉调用知识库,识别紧急问题,生成工单
物流服务确认收货、异常反馈采集状态,识别异常,回传结果
医疗导诊咨询科室、院区、挂号流程提供流程导航,特殊问题转人工
政务热线查询政策、办理进度解释政策口径,识别事项类型,转人工
AI外呼通知、回访、预约确认多轮确认,采集结果,结构化回传


这意味着,通话Agent不能只配置一套统一问答话术。

它需要根据行业流程,定义不同的Agent角色、业务目标、字段要求、工具调用方式、转人工条件和服务记录格式。
合力亿捷MPaaS的Agent、Flow、Tools体系,正是为了把这些场景差异转化为可编排、可运行、可优化的客服智能体能力。
当通话Agent接入订单系统,它可以查询动态数据;接入工单系统,它可以创建和跟踪服务任务;接入知识库,它可以统一回答口径;接入CRM,它可以识别客户身份和历史记录;接入人工坐席,它可以把上下文带给人工继续处理。
这才是“从接起电话到完成任务”的完整路径。

九、企业评估业务执行型通话Agent,应该问哪些问题

如果企业想判断一个通话Agent是否真正具备业务执行能力,不应只测试“能不能回答问题”。
更应该问:
第一,它能否识别用户真正要办的事?
比如查订单、报修、预约、投诉、政策咨询是否能区分清楚。
第二,它能否采集完成任务所需字段?
手机号、订单号、地址、型号、时间、门店等字段是否能被识别、确认和复用。
第三,它是否能调用真实业务系统?
是否能连接CRM、ERP、订单、物流、工单、预约等系统,而不只是回答FAQ。
第四,工具调用前是否有校验和确认?
特别是取消、修改、提交、投诉、金融、医疗等高风险动作。
第五,接口异常时如何处理?
是否能继续追问、稍后通知、生成工单或转人工,而不是直接失败。
第六,任务完成后是否有记录?
是否生成服务摘要、工单记录、回访结果、客户标签或质检数据。
第七,人工接管是否顺畅?
转人工时,人工坐席是否能看到用户意图、已采集字段和前序对话摘要。

这些问题决定了通话Agent能否真正进入企业客服生产环境。


抽象-AI外呼.png


十、从“能回答”到“能办理”,是通话Agent的分水岭

语音理解是通话Agent的起点,但不是终点。
如果AI只能听懂问题并给出回答,它更接近语音问答机器人;如果AI能够识别任务、采集字段、调用工具、执行业务规则、创建工单、转人工并沉淀服务记录,它才真正进入企业级客服Agent阶段。
这也是合力亿捷通话Agent的核心方向。
通过MPaaS的Agent、Flow、Tools体系,合力亿捷将语音交互、知识库、业务系统、工单流程、人工坐席和质检运营连接起来,让通话Agent从“接起电话”进一步走向“完成任务”。
当然,并不是所有业务都适合完全自动化。通话Agent能完成什么,取决于客户系统接口、业务流程标准化程度、数据质量、权限边界和风险要求。对于复杂投诉、医疗金融专业判断、高风险变更等场景,人工审核和人工兜底仍然必要。
但这并不影响一个清晰趋势:
企业客服正在从“AI回答问题”进入“AI执行业务”的阶段。
真正有价值的通话Agent,不是替用户多说几句话,而是能把电话里的自然语言转化为企业系统里的可执行动作。
当一次通话能够完成查询、确认、建单、通知、回写和转人工协同,电话入口才不只是服务接待入口,而是企业业务流程的智能执行入口。