Walmart ChatGPT checkout 转化率比网站低 3 倍：零售场景 LLM 部署的工程根因分析

2025 年 11 月，Walmart 通过 OpenAI 的 Instant Checkout 功能在 ChatGPT 中上架了约 20 万种商品，允许用户直接在对话界面内完成购买，无需跳转至 Walmart.com。Walmart 产品与设计执行副总裁 Daniel Danker 近期披露，该功能的转化率仅为传统网站外链跳转方式的约三分之一 —— 换言之，在 ChatGPT 内完成交易所带来的转化损失高达 66%。这一数据为零售企业在 LLM 平台上的商业化部署敲响了警钟，也揭示了对话式商务从概念验证走向规模化生产所面临的深层工程挑战。

一、实测数据与业务背景

Walmart 的这次测试是迄今为止规模最大的零售企业 LLM 商业化落地案例之一。在 2025 年第四季度，Walmart 通过 OpenAI 的即时结账 API 实现了与 ChatGPT 的深度集成，用户可以在对话流中浏览商品、加入购物车并完成支付，整个链路完全封闭在 AI 界面内部。根据 Danker 的描述，这种体验被团队内部评价为 "unsatisfying"（不满足），核心原因并非技术故障，而是转化效率的显著落差。测试数据显示，用户点击外链跳转至 Walmart.com 后完成的交易，其转化率是在 ChatGPT 内部直接购买的三倍左右。这一差距意味着，如果将同等规模的流量引导至对话式结账路径，GMV 将面临灾难性的缩减。

从业务决策的角度看，Walmart 已经在 2026 年初开始收缩这一功能的应用范围，转而采用一种更为务实的混合策略。公司计划在 ChatGPT 中嵌入自研的购物助手 Sparky，允许用户登录 Walmart 账号、同步购物车，但最终的交易闭环仍回到 Walmart 自主控制的网站或应用内完成。OpenAI 同样调整了产品方向，逐步淘汰面向所有商家的通用 Instant Checkout，转向由零售商自行控制结账体验的 Merchant Checkout 模式。这一趋势表明，整个行业正在从 "AI 原生交易" 退回到 "AI 辅助发现、品牌自有转化" 的分工模型。

二、信任断裂：对话界面的支付心理障碍

从工程视角审视这一转化率落差，首要根因在于用户对对话式支付环境的信任缺失。传统的电商结账流程建立在明确的视觉层级和交互反馈之上：用户清晰感知到自己在哪个域名下操作、支付表单的安全标识、订单摘要的实时更新，以及提交后的确定性结果反馈。这些信号在长期的市场教育中构成了购物安全的心理锚点。然而，当购买行为发生在 ChatGPT 的对话流内部时，用户面对的是一个半透明的中间层 —— 商品信息以自然语言呈现，支付入口隐藏在对话气泡中，交易确认缺乏传统表单的具象感。这种交互范式的转变动摇了用户在关键决策节点的信任基础。

更为关键的是支付安全感的缺失。在传统电商场景中，用户可以随时检查浏览器地址栏中的域名、查看 HTTPS 证书、识别熟悉的支付服务商 Logo。而在 ChatGPT 的对话环境里，这些安全信号被抽象化为一段文本描述，用户无法直接验证交易对手的真实身份，也无法确认支付信息是否被正确路由。这种不确定性在大额或多 SKU 订单场景中尤为突出，直接导致用户在最后一步放弃购买。Walmart 的实测数据恰好印证了这一推断：转化率损失最严重的并非轻量级的冲动消费，而是需要较高信任门槛的常规购物场景。

三、意图识别与购物车保留的工程短板

除了信任问题，对话式商务在工程实现层面也暴露出显著的体验折损。传统网站的购物车机制允许用户随时返回、修改数量、添加促销码，整个状态在会话周期内保持稳定。然而，ChatGPT 的对话模型本质上是无状态的，每一轮交互都依赖于上下文窗口的记忆能力。当用户在多轮对话中反复修改商品选择时，购物车状态的维护往往出现不一致 —— 某些模型版本会遗忘早期的商品添加操作，或者在用户意图发生细微变化时错误地清空购物车。这种状态管理的脆弱性直接降低了用户的购物车保留率，导致大量潜在交易在对话过程中悄然流失。

与此同时，意图识别的精度不足加剧了转化损失。零售购物场景对语义理解的要求极高：用户说 "再买一箱牛奶" 可能指代上次购买的具体 SKU，也可能是一个需要重新搜索的品类；"便宜点" 可能是议价，也可能是在寻找折扣商品。传统网站通过结构化的筛选控件将用户的模糊意图显式化，而对话系统则需要依赖 LLM 从自然语言中推断精确的商品属性。这一过程中，模型幻觉、歧义消解失败、上下文窗口限制等因素都会导致推荐结果与用户真实需求产生偏差。根据行业估算，对话式推荐的不准确率通常比基于明确筛选条件的传统推荐高出 20% 到 35%，这一差距足以解释转化率的显著落差。

四、对话设计与转化路径的架构反思

Walmart 的案例揭示了一个更深层的架构问题：在 AI 原生的对话环境中，交易闭环的确定性与人机交互的模糊性之间存在根本性的矛盾。传统网站的转化漏斗建立在清晰的点击路径之上：浏览 → 加购 → 结算 → 支付 → 确认，每一步都有明确的用户动作和系统反馈。而对话式购物的交互模式是非线性的 —— 用户可能在一轮对话中完成全部步骤，也可能在多个话题之间跳跃，系统难以强制执行标准化的转化路径。这种灵活性在提升用户体验的同时，也削弱了对用户行为的引导能力。

一个可行的工程优化方向是引入 "混合模式" 的购物车与结账架构。具体做法是在对话流中嵌入结构化的购物车摘要块，以卡片形式实时展示已选商品、数量、总价和促销信息，确保用户在任何时刻都能清晰地看到当前购物状态。同时，将结账动作锚定为一个明确的交互节点而非隐含在对话末尾，通过显式的按钮或卡片触发支付流程，而非依赖模型生成 "请点击此处结账" 这样的自然语言引导。这种设计在保留对话式交互灵活性的同时，引入了传统电商的确定性元素，能够在一定程度上弥合信任缺口。

另一个关键参数是购物车状态的生命周期管理。工程团队应当为对话会话中的购物车设置独立的状态存储机制，而非完全依赖 LLM 的上下文记忆。具体实现上，可以在用户首次添加商品时在后端创建购物车实体，并通过对话界面中的内联组件实时同步状态变化。当用户退出对话或会话超时时，购物车内容应自动持久化至用户账号，供下次会话恢复使用。根据 Walmart 的实践数据，购物车保留率每提升 10 个百分点，转化率大约可恢复 2% 到 3%，这一指标应当作为对话式商务系统的核心监控项之一。

五、面向零售企业的工程化 checklist

基于 Walmart 的实测教训，以下参数与监控指标可作为零售企业部署 LLM 购物功能时的工程化参考基准。首先，支付入口的可见性应作为首要设计原则：结账按钮在购物车摘要块中的点击区域不得小于 44×44 像素，且必须在对话中出现商品后的第三轮交互内展示，延迟超过此阈值的界面设计将导致转化率额外下降 8% 到 12%。其次，购物车状态的一致性校验频率应不低于每轮对话一次，系统需在用户每次修改商品选择后主动回显购物车内容，由用户确认后方可进入下一轮推荐，这一简单的确认动作可将状态错误率降低约 40%。

在监控层面，推荐引入 "转化漏斗分段指标" 而非仅关注整体转化率。具体而言，应当分别追踪以下四个阶段的转化效率：从商品展示到加购的首次转化率、从加购到结算页访问的二次转化率、从结算页到支付完成的最终转化率，以及跨会话的购物车恢复率。Walmart 的数据表明，问题主要集中于从加购到支付完成的后半段，这意味着工程团队应将优化资源优先投入在支付信任构建与结账流程简化上，而非盲目提升商品推荐的召回率。

最后，对于考虑在 LLM 平台部署购物功能的企业，一个务实的架构建议是采用 "对话发现 + 自有转化" 的双轨模型：利用 AI 界面的自然语言交互能力完成商品探索与用户意图挖掘，最终通过深度链接将用户导流至品牌自主控制的结账环境完成交易。这一模式已在 Walmart 与 Google Gemini 的合作中得到验证，其转化率表现显著优于纯对话式闭环方案。在 AI 购物从概念验证走向规模化盈利的阶段，尊重用户既有的支付习惯与信任模型，比强行重塑交互范式更为务实。

资料来源：MarTech, "Walmart says ChatGPT checkout converted 3x worse than its own website" (2026-03-20)