客服 Agent 从 0 到 1：一个电商公司的真实搭建记录

不是教程，是一份踩坑报告

一、为什么选这个话题

客服自动化是 AI Agent 落地最成熟的场景，也是中小企业最容易看懂的 ROI 场景——一个客服月薪 4000-6000，Agent 能替代 60-80% 的常见问题，省出来的钱容易算。

但"容易算"不等于"容易做"。头条上搜"AI 客服搭建方案怎么选"、"企业 Agent 落地失败原因"，能搜出大量真实的踩坑记录。这篇文章把这些坑和对应的做法整理出来。

二、动手之前：先想清楚三个问题

2.1 你的常见问题清单长什么样

很多人上来就选工具、搭流程。但在那之前，应该先把过去 3-6 个月的客服聊天记录整理一遍，按频率排序：

高频（日均 50 次以上）：

物流查询：我的快递到哪了？
退换货政策：可以退吗？邮费谁出？
产品规格：这个有 S 号吗？成分是什么？
使用指南：这个怎么用？第一次怎么操作？

中频（日均 10-50 次）：

优惠活动：现在有什么折扣？会员怎么注册？
订单问题：我要改地址、我要合并付款、我要开发票
库存查询：这个颜色还有货吗？什么时候补货？

低频（日均 10 次以下）：

投诉类：产品质量问题、物流损坏、发错货
合作类：我要拿货、我要做分销、我们要谈合作
个性化问题：这个适合 XX 肤质吗？送 XX 岁的人合适吗？

这个清单决定了 Agent 的搭建策略： 高频问题回答标准、容易结构化，是 Agent 的主战场。中频问题需要更多的上下文信息（订单号、用户身份）。低频问题涉及情感判断和个性化，Agent 处理不好，转人工更合适。

2.2 数据从哪来，质量如何

Agent 的回答质量取决于两件事：知识库的内容质量，以及它能获取的实时数据。

知识库内容： 很多公司把产品详情页、退换货政策页面直接扔给 Agent 当知识库。问题在于，这些内容是为"人读"设计的，不是为"Agent 检索"设计的。比如一个退换货政策页面写的是"我们承诺为您提供无忧的购物体验"这种营销语言，Agent 检索到的内容没法直接用来回答"拆封后能不能退"这种具体问题。

正确做法： 把政策转换成问答格式（FAQ）。每个知识点写成"问题 - 标准答案 - 适用条件"的三元组。比如：

问题：已拆封的商品可以退货吗？
答案：已拆封但不影响二次销售的，7 天内可申请退货，买家承担退回邮费。
答案适用条件：商品不属于定制类、鲜活易腐类。

实时数据： Agent 回答"我的快递到哪了"需要调物流接口。回答"这个颜色还有货吗"需要调库存接口。这些接口是否完善、数据是否实时，直接决定了 Agent 能不能用。

2.3 人机协作的边界在哪

这个问题不想清楚，上线后一定会翻车。

一个实际的决策框架：

问题类型	处理方式	原因
物流查询、库存查询	Agent 全自动	数据接口准确，回答标准化
退换货政策咨询	Agent 回答 + 给出操作入口	政策有标准答案，但需要引导用户操作
简单的订单修改（地址、备注）	Agent 处理 + 人工复核	操作有风险，但规则明确
投诉、负面情绪	转人工	情绪判断是 Agent 的弱项
个性化推荐	Agent 初筛 + 人工跟进	准确率不够，但能缩小范围

三、技术选型：自己搭还是用现成的

3.1 现成方案

国内可选的现成客服 Agent 方案：

扣子（Coze）+ 企业微信/飞书： 可视化搭建，不需要写代码。知识库支持上传文档和 FAQ，内置意图分类能力。适合 50 人以下的团队，月费几百到几千元不等。

Dify： 开源方案，可以本地部署。数据不出内网，适合有数据合规要求的团队。有一定的技术门槛，需要自己配置知识库和工具调用。

有赞/Shopify 官方插件： 如果你的电商业务跑在这些平台上，官方的客服 Agent 插件能直接对接订单和商品数据，接入成本最低。

百度智能云客服 / 阿里云客服： 大厂方案，功能完善，但价格较高，一般中大型企业才用，而且客开成本不低。

3.2 自己搭

自己搭的核心环节：

知识库（RAG 系统）： 把 FAQ 和产品文档做向量化存储，Agent 查询时做语义检索，匹配最相关的知识条目。工具选型：Milvus/Pinecone/ChromaDB 做向量库，Embedding 模型用 text-embedding-ada 或国产的 bge-large-zh。
意图分类： 用户说了一句话，先判断他要做什么（查物流 / 退换货 / 查库存 / 投诉 / 闲聊）。这个可以用轻量分类模型做，也可以让 LLM 直接做意图识别。
工具调用（Tool Call）： 物流查询调物流平台接口；库存查询调商品数据库；订单操作调电商后台接口。每个工具的返回结果要做格式化，防止太多数据灌进 Agent 上下文。
回复生成： 根据意图分类结果 + 知识库检索结果 + 工具返回数据，生成最终回复。注意控制回复长度——客服不是聊天，用户要的是答案，不是作文。
人工转接： 当置信度低于阈值、或者用户主动要求人工、或者检测到负面情绪时，无缝转人工。转人工时要自动带上对话摘要，不要让人工客服从头问。

3.3 我的建议

50 人以下的电商公司，首选扣子（Coze）或有赞官方插件。 原因很简单：自己搭的隐性成本（调试时间 + 维护人力 + 接口对接）远比想象的高。现成方案虽然灵活性差一些，但上线快、稳定，先把流程跑通再考虑定制化。

有技术团队、对数据合规要求高的，选 Dify 私有化部署。

四、知识库建设：成败的关键

很多人搭 Agent 的时候，把时间花在"选哪个模型"和"搭什么工具"上，却忽略了知识库的建设。实际上，知识库的内容质量是决定 Agent 回答准确率的第一因素，比模型选择重要得多。

4.1 FAQ 的标准结构

每条 FAQ 应该包含：

问题：用户可能问的多种表达方式（至少 3-5 种）
答案：简洁、直接、可操作的回答
适用条件：这个答案在什么情况下适用
例外情况：哪些特殊情况下这个答案不适用
关联操作：用户下一步应该做什么（给出链接或操作路径）

4.2 知识库的更新机制

很多公司的知识库上线后就不更新了。新的促销活动、新的产品规格、新的政策变更，如果不同步到知识库，Agent 就会用过时的信息回答用户。

好的做法： 规定知识库的更新流程和负责人。每次产品变更、政策调整、大型活动上线时，必须同步更新对应的知识条目。每周定期审查一次 Agent 的回答日志，把错误回答和用户不满意的地方标注出来，反馈给知识库团队补充和修正。

4.3 检索失败的处理

Agent 检索不到匹配的知识条目时，它不会说"我不知道"——它会给你一个看起来很有信心的错误回答。

应对方式： 设置置信度阈值。当检索到的知识条目与用户问题的相似度低于一定阈值（比如 0.75），Agent 不直接回答，而是说"这个问题我需要帮你转接客服专员，请稍等"。宁可多转几次人工，也不要给用户一个错误的答案。

五、上线后的运营：不是"设置好就不用管"

5.1 第一周必须盯着

刚上线的 Agent 就像一个刚入职的新员工，犯错的频率远高于老员工。第一周一定要有人实时审核 Agent 的回答。

审核重点：

是否回答了正确的问题（有没有理解错意图）
答案是否准确（有没有幻觉、有没有过时）
语气是否合适（客服语气 vs 机器人语气）
转人工的时机是否合适（该转的转了，不该转的没乱转）

5.2 看这几个指标

解决率： Agent 独立解决、不需要转人工的对话占比。目标：60-80%。低于 50% 说明知识库有大的缺口，或者意图识别出了问题。

转人工率： 转人工的比例。高于 40% 需要分析原因——是知识库不完整，还是用户对 Agent 缺乏信任？

用户满意度： 在对话结束后让用户评价（1-5 星）。重点关注 1-2 星的内容，找出规律性的不满原因。

平均对话轮数： 用户在得到满意回答前平均聊了几轮。轮数越多，要么是用户没说清楚，要么是 Agent 没理解对。超过 3 轮的要重点分析。

5.3 常见异常和处理

异常 1：Agent 对同一问题给出不同答案。 通常是知识库里有重复或冲突的条目，或者检索不稳定。清理重复条目，确保同一问题只有一条准确答案。

异常 2：Agent 反复问用户"你说的意思是不是……"。 意图识别不够准，或者问题分类过细合并。简化意图分类，增加兜底意图。

异常 3：用户说"我要找人工"，Agent 继续回答。 负面情绪检测缺失。增加关键词触发：包含"人工""客服""真人""转接"等词时，立刻转人工，不要继续尝试自答。

异常 4：大促期间 Agent 崩溃。 并发量超过系统负载，或者活动政策没及时更新。大促前必须提前做压力测试和知识库更新。

六、一个真实案例的简略版本

一家在淘宝和微信都有店的女装电商，日均订单 300-500 单，客服咨询量每天 800-1200 条。原有 4 个客服，分早晚班。

他们做了什么：

把过去 6 个月的客服聊天记录导出，分析高频问题（前 20 个问题占了 65% 的咨询量）
用扣子搭建 Agent，知识库以 FAQ 格式录入 150 个核心知识点
对接了电商平台的订单和物流接口，让 Agent 能查物流和库存
设置了"投诉、负面情绪"自动转人工的规则
第一周安排了 1 个人专职审核 Agent 的回复，每天标注 20-30 条需要修正的回答
根据审核反馈，每天更新知识库和意图规则

结果（一个月后数据）：

Agent 独立解决率：68%
转人工率从预期的 35% 降到了 28%（因为 Agent 回答越来越准了）
客服团队从 4 人缩减到 2 人（2 个老客服负责处理 Agent 转过来的复杂问题和投诉）
用户满意度从 3.8 分上升到 4.1 分（因为响应速度大幅提升，等待时间从平均 3 分钟降到了 10 秒以内）

持续存在的问题：

"这个颜色适合黄皮吗"这种个性化问题，Agent 回答不够好，只能推荐用户看详情页或转人工
大促时政策变化频繁，知识库更新跟不上，有大促第一天 Agent 还在回答旧政策的情况
部分中老年用户不信任 Agent，上来就要找人工

七、总结：给准备动手的人

前三步：

整理 3-6 个月聊天记录，分析高频问题
用 FAQ 格式建立知识库（150-200 条是合理的起步量）
选定工具（一般规模的电商选扣子即可），先跑 PoC（概念验证），不要一上来就全量上线

上线后前三件事：

至少坚持一周人工审核 Agent 的回答日志
每天更新知识库中发现的错误
盯紧"解决率"和"转人工率"两个指标，它们是 Agent 是否健康的核心体检数据

记住一件事： 客服 Agent 不是"上线就完事"的一次性项目，它是需要持续运营的工具。你投入的审核和更新时间越多，Agent 就越好用——这和培养一个真人客服的道理完全一样。

整理于 2026 年 6 月。案例基于公开分享整理，数据以实际业务为准。