当人工智能系统能够自主提出科学假设、设计实验、分析结果并撰写论文时,科学研究的生产力边界将被重新定义。SakanaAI 发布的 AI Scientist-v2 正是这一愿景的最新实践者,它采用了一种名为 Agentic Tree Search(代理式树搜索)的核心方法论,实现了无需人类模板指引的端到端自动化科学发现流程。这一技术路径与当前主流的 skill framework 或 multi-agent 编排方案存在本质区别,代表了 AI 辅助科研的另一种可能性。

从模板依赖到自主探索:v1 与 v2 的范式差异

理解 AI Scientist-v2 的创新之前,有必要回顾其前身 AI Scientist-v1 的设计哲学。v1 版本遵循人类预设的模板结构进行论文生成,这意味着系统需要依赖明确的起始框架和明确的实验目标,在清晰目标和坚实基础支撑下具有较高的成功率。然而,这种模板依赖也限制了系统的探索能力 —— 它无法在缺乏人类指引的情况下自主发现新的研究方向或创新性的实验思路。

v2 版本的核心突破在于彻底移除了对人类编写模板的依赖,将系统置于一种真正的开放探索模式中。它不再需要预先定义好的实验框架,而是通过与 Semantic Scholar 等文献数据库的交互,自主评估研究想法的新颖性,并在此基础上生成具体的假设和实验方案。这种转变带来的直接结果是:v2 能够横跨机器学习的多个子领域进行通用化探索,而非局限于某一特定任务类型。当然,这种更广泛的探索策略也意味着成功率会有所下降 ——v2 适合开放式科学探索,而 v1 更适合具有明确目标的工程化任务。

Agentic Tree Search 的技术内核

AI Scientist-v2 的核心技术栈建立在一个关键概念之上:Best-First Tree Search(最佳优先树搜索,简称 BFTS)。这一搜索策略并非全新发明,其树搜索组件基于 AIDE 项目构建,但在 AI Scientist-v2 中,它被重新设计为一种面向科学发现的代理式推理框架。

在 BFTS 的框架下,每一个树节点都编码了一个具体的研究动作 —— 这可能是运行某个特定实验、调整某个超参数、绘制某张可视化图表,或者撰写论文的某个章节。每个节点都被赋予一个标量分数,反映该动作对于实现目标(如提升验证集准确率、缩小置信区间等)的预期贡献。搜索算法在每一步迭代中总是选择当前看起来最有前景的节点进行扩展,从而在庞大的实验空间中有针对性地探索,而非盲目枚举。

这种评分机制的设计是整个系统的智能所在。传统的自动化机器学习工具往往采用网格搜索或随机搜索,这些方法在超参数空间中的探索效率低下且缺乏方向性。而 BFTS 通过实验管理器(Experiment Manager)代理的持续评估,动态调整搜索策略,将计算资源集中在最可能产生积极结果的方向上。当某个实验路径遭遇失败时,系统还具备调试能力 —— 根据配置文件中的 max_debug_depth 参数,代理会尝试多次修复问题,只有在超过重试阈值后才放弃该搜索分支。

四阶段流水线:从假设到同行评审

AI Scientist-v2 的实验流程被组织为四个递进阶段,每个阶段都由实验管理器代理进行协调和决策。第一阶段是初步调查(Preliminary Investigation),系统在此阶段对研究想法进行初步验证,确定核心假设的可行性。第二阶段是超参数调优(Hyperparameter Tuning),在确认方向可行后,系统自动搜索最优的超参数组合,以最大化实验性能。第三阶段是实验执行(Experimental Execution),运行完整的实验流程并收集结果数据。第四阶段是论文撰写与同行评审(Writeup and Peer-Review Refinement),系统不仅撰写论文草稿,还包含一个自主审稿组件,对内容进行多轮迭代优化,最终产出符合学术规范的稿件。

值得注意的是,v2 还引入了视觉语言模型(VLM)的迭代反馈回路。在论文可视化阶段,系统使用 VLM 反复审视和优化图表质量,确保结果的视觉呈现达到可提交标准。这种多代理协作的架构设计,使得整个系统能够在最少人工干预的情况下完成从想法到可发表成果的全流程。

在并行化配置方面,bfts_config.yaml 提供了关键的可调参数。num_workers 控制并行探索路径的数量,steps 决定最大可探索的节点总数。例如当 num_workers 设为 3、steps 设为 21 时,系统会同时展开 3 条探索路径,每条路径最多扩展 21 个节点。num_drafts 参数则控制第一阶段生成的根节点数量,即独立搜索树的数量。这些参数的调整直接影响计算成本和探索广度之间的平衡 —— 根据官方数据,使用 Claude 3.5 Sonnet 进行实验的主流程每次运行成本约为 15 至 20 美元,后续撰写阶段额外增加约 5 美元。

与传统 AI 研究范式的本质区别

将 AI Scientist-v2 与当前主流的 AI 研究辅助工具进行对比,可以清晰地看到其独特价值。传统的 AI 编程助手(如 GitHub Copilot)或代码生成模型,本质上是对人类意图的响应式补全 —— 它们在人类设定的目标和框架内工作,而非自主定义目标。相比之下,AI Scientist-v2 采用了目标导向的自主探索模式,系统需要自己判断什么是值得研究的问题、什么样的实验能够验证假设、以及什么样的结论值得写成论文。

这与 multi-agent 编排框架也存在本质差异。在 multi-agent 架构中,多个代理通常各自承担特定子任务(如一个代理写代码、一个代理做测试、一个代理写文档),它们通过预定义的通信协议协作。而 Agentic Tree Search 中的代理更接近于一个动态规划的执行者 —— 它评估当前状态、选择最优动作、并在执行后根据结果更新评估,这种闭环反馈机制更接近人类科研人员的推理方式。

更具深远意义的是,AI Scientist-v2 已经通过了真实世界的检验。系统生成的论文曾被 ICLR workshop 接收,这标志着自动化科学发现从概念验证迈向了实际可用。尽管目前的结果主要集中在 workshop 级别的论文,但它验证了基于树搜索的代理式方法在科研自动化领域的可行性。

工程实践的关键考量

对于希望部署或借鉴这一系统的开发者而言,有几个工程要点值得关注。首先是安全性 —— 系统会执行 LLM 自动生成的代码,存在使用危险包、未受控的网络访问以及意外产生后台进程的风险,建议在 Docker 等受控沙箱环境中运行。其次是模型选择,v2 支持 OpenAI、Gemini 以及通过 AWS Bedrock 调用的 Claude 模型,不同模型的能力差异直接影响成功率和运行成本 —— 使用更强大的模型通常能获得更高的实验成功率。

配置参数的调优也是成功的关键因素。debug_prob 控制失败节点的调试概率,max_debug_depth 限制单次调试的最大尝试次数,这两个参数需要在探索广度和计算资源之间取得平衡。对于计算资源有限的场景,可以通过调整 ideation prompt 建议使用更小的模型来降低显存需求。

AI Scientist-v2 的出现代表着 AI 辅助科研进入了一个新阶段。它不再满足于作为人类研究者的工具,而是尝试承担从假设生成到论文产出的完整研究生命周期。尽管距离取代人类科学家仍有相当距离,但其展示的代理式推理和自主探索能力,已经为科学研究的生产力提升开辟了新的想象空间。


资料来源:SakanaAI/AI-Scientist-v2 GitHub 仓库,arXiv 论文 2504.08066。