在人工智能辅助数学证明的实践中,人类研究者与 AI 证明助手之间的协作模式正成为形式化方法领域的重要研究课题。2026 年 3 月,著名计算机科学家 Donald Knuth 在图论领域取得突破性进展 —— 与其合作者 Filip Stappers 通过 AI 证明助手 Claude Opus 4.6 解决了其长期关注的图论猜想,并发表论文《Claude's Cycles》。这一案例为理解人类与 AI 证明助手的协作机制提供了典型样本,其交互策略与形式化方法的应用对于后续类似研究具有重要的参考价值。

问题背景与协作目标设定

Knuth 长期致力于研究将 m³ 个顶点的有向图分解为三个哈密顿循环的一般性构造规则。该问题涉及对所有奇数 m>2 的情况建立统一的分解方案。Knuth 此前已解决 3×3×3 的特殊情形,并通过计算验证了高达 16×16×16 网格的解,但未能发现适用于任意奇数维度的一般性构造。这一问题原本计划收入《计算机程序设计艺术》未来卷册,其难度足以令这位计算机科学泰斗陷入停滞。

在协作目标设定阶段,人类协作方需要完成两项关键工作:首先是将开放性问题转化为适合 AI 处理的精确问题陈述,其次是设定合理的成功指标。Stappers 将 Knuth 的问题精确描述后输入 Claude Opus 4.6,明确要求寻找能够生成有效哈密顿环分解的构造规则。这种目标设定方式体现了形式化方法中 “规格说明” 的核心原则 —— 将待求解问题的约束条件和期望输出以机器可理解的方式予以表达。值得注意的是,初始目标并不要求 AI 产出严格的数学证明,而是要求发现 “有效的构造模式”,这一策略选择为后续人类撰写形式化证明预留了空间。

引导式探索策略的工程化参数

Claude Opus 4.6 在约一小时内完成了 31 轮引导式探索,这一数字本身即揭示了人机协作的核心策略特征。每轮探索并非简单的问答交互,而是包含问题重述、方案生成、结果评估与方向调整的完整循环。工程化角度来看,31 轮探索反映了以下关键参数:

探索深度阈值:单一提示通常无法直接得出答案,需要设定合理的迭代上限。案例中 31 轮探索可分为若干阶段 —— 初始阶段(1-10 轮)进行线性公式尝试与暴力搜索,中期阶段(11-20 轮)引入几何框架与模拟退火,后期阶段(21-31 轮)聚焦于模式识别与构造优化。每轮探索均设定明确的时间预算,当某条路径在预定迭代内未取得进展时即触发策略切换。

失败容忍机制:Claude 在探索过程中经历了多次 “死胡同”—— 某些方法在特定维度有效但无法泛化。人类协作方的关键作用在于识别这些失败并引导转向,而非要求 AI 一次性找到正确路径。Stappers 需要反复提示 Claude 记录搜索结果,并在出现会话错误导致早期输出丢失时协助重建上下文。这种容错设计使得 AI 能够在大搜索空间中持续探索而不因局部失败陷入停滞。

领域知识注入时机:案例显示 Claude 在探索中途独立识别出问题结构为 Cayley 有向图并相应调整方法,但更多领域知识来自人类协作方的隐性输入。例如,当 Claude 尝试的方法偏离组合数学常规路径时,人类通过调整提示方向将其引回可行区域。这种 “适时注入” 的策略避免了过度干预导致的搜索空间人为收窄,同时确保探索保持在 productive 的方向上。

构造发现与形式化证明的分工模式

Claude Opus 4.6 最终发现的构造被描述为 “蛇形模式”,事后被识别为模块化 m 进制 Gray 码的对应结构。这一发现过程具有重要的方法论意义:AI 并不需要 “知道” Gray 码的存在,而是通过问题约束条件独立推导出该结构。这印证了 AI 作为 “模式发现者” 的核心价值 —— 在巨大的组合空间中识别出人类难以直接观察到的规律性。

然而,发现构造与严格证明构造的正确性是两个截然不同的任务。Knuth 在获得 Claude 的构造后,亲自完成了验证工作并撰写了严格的数学证明。论文《Claude's Cycles》的主体是 Knuth 的形式化证明,而非 AI 输出物。这一分工体现了当前人机协作数学研究的现实:AI 擅长搜索与模式识别,人类擅长严格推理与形式化验证。两者的互补性在此案例中得到充分体现。

从形式化方法角度看,这种分工对应于 “猜测 - 验证” 范式的现代化身。传统数学研究中,猜测往往来自数学家的直觉与经验;在人机协作框架下,AI 承担了部分猜测工作,将人类的认知负担从 “同时寻找构造与证明” 降低至 “仅需验证构造”。这一范式转换降低了数学研究的认知门槛,但同时带来了新的挑战:如何确保 AI 发现的构造确实可被形式化验证?如何设计人机接口使得构造信息能够完整、无歧义地传递给人类验证者?

可复用的交互策略清单

基于对 Knuth-Claude 案例的分析,可提取以下适用于人类与 AI 证明助手协作的可操作参数:

问题规格化:将开放性问题转化为精确的约束描述,明确输入参数范围与期望输出格式。Knuth 案例的问题规格包括:顶点数 m³、每个顶点三条出边、分解为三个哈密顿环、要求对所有奇数 m>2 有效。规格化质量直接影响 AI 搜索的有效性。

迭代预算设定:根据问题难度设定合理的探索轮数上限与每轮时间预算。建议初始设定为 20-30 轮探索,每轮包含方案生成与评估的完整周期。当某轮探索明显偏离目标时及时终止并转向,而非等待耗尽。

中间结果记录:建立系统性的中间结果记录机制,包括成功的构造模式、失败的尝试路径及其失败原因。案例中会话错误导致部分输出丢失,说明持久化存储的必要性。推荐使用结构化日志记录每轮探索的关键信息。

人类验证时点:在 AI 产出看似合理的构造后,引入人类验证环节而非直接假设构造正确。Knuth 的亲自验证确保了论文的数学严谨性,这一环节不可省略。验证重点应包括:构造在边界条件下的行为、特殊情况的手工检验、形式化证明的可行性评估。

失败转移策略:当 AI 在特定方向上连续失败时,需要人类判断失败原因是 “搜索不足” 还是 “方向错误”。案例中偶数 m 情况 AI 未能取得进展,暗示该方向可能需要完全不同的人类洞察,此时应考虑暂停 AI 辅助转而依靠人类数学直觉。

局限性与开放问题

需要指出的是,Knuth-Claude 案例并非完美范本,其局限性同样值得注意。首先,偶数维度的情况至今未获解决,说明 AI 辅助在某些问题上存在根本性局限。其次,31 轮探索依赖人类协作方的持续引导,这一过程本身需要领域专业知识 —— 新手研究者可能难以有效设定探索方向。最后,构造的 “蛇形模式” 被发现对应 Gray 码是事后识别,AI 本身未能解释为何该构造有效,这在一定程度上削弱了可解释性。

更广泛地看,人机协作证明助手的交互策略仍处于经验积累阶段。不同数学领域的问题特征差异显著,适用于图论构造问题的方法未必适用于代数证明或数论问题。形式化方法框架下的交互协议设计、验证任务的自动化程度提升、以及 AI 输出的可解释性增强,仍是待解决的研究课题。

Knuth 在论文结尾写道:“看来有一天我必须改变对生成式 AI 的看法。” 这一评论既是对当前成就的认可,也是对未来的期待。人类与 AI 证明助手的协作正在重新定义数学研究的边界,而如何设计有效的交互策略,将决定这一边界能扩展到多远。

资料来源:本文主要参考 Knuth 论文《Claude's Cycles》及相关报道,原始论文可访问斯坦福大学 Knuth 个人页面获取。