在检索增强生成(RAG)领域,多轮 Agentic Search 已成为解决多跳查询的标准范式,但前沿模型的高成本与高延迟限制了其规模化部署。Chroma 团队近日发布了 Context-1,一个 20B 参数的自编辑搜索模型,在达到与前沿模型相当的检索性能的同时,将推理速度提升至 10 倍以上。本文将从训练流程、反馈循环机制与工程实现三个维度,解析这一检索子 Agent 的技术细节与可落地参数。

自编辑搜索的核心挑战

传统单阶段检索假设答案可在一次查询中获取,但现实场景中的复杂问题往往需要多轮迭代 —— 分解高层问题、执行子查询、根据中间结果调整策略。这一过程的核心瓶颈在于上下文窗口的急速膨胀:随着 Agent 收集的文档增多,上下文迅速被无关或冗余信息填满,不仅增加计算成本,还会因 “上下文腐败”(Context Rot)导致性能下降。Chroma Context-1 的解决方案是将上下文管理内化为 Agent 自身的能力 —— 通过自编辑机制主动决定保留或丢弃哪些内容,从而在有限的上下文预算内持续高效探索。

分阶段训练课程设计

Context-1 的训练采用两阶段课程策略,第一个阶段聚焦召回率优化,第二个阶段转向精度提升。这一设计源于一个关键洞察:模型在早期需要广泛探索以发现相关文档,后期则需学会在冗余信息中精准筛选。

第一阶段使用较低的难度分布,任务以低跳数查询为主。此时奖励函数中的 Recall 权重设为 Precision 的 16 倍,模型被激励尽可能多地检索相关文档,即使伴随大量噪声。这一阶段的目标是建立强大的探索能力,让模型掌握将高层问题分解为多个子查询的技能。第二阶段逐渐增加高难度多跳任务的比例,同时将奖励函数中的 Recall 权重从 16 倍过渡到 4 倍,引导模型从 “找到所有” 转向 “找准关键”。

训练数据来自超过 8000 个合成生成的任务,涵盖网页、金融、法律和邮件四个领域。每个任务包含线索、问题、答案和支持文档集,难度通过跳数(hops)控制。数据生成管线使用人类对齐的 LLM 裁判进行提取式验证,对每个支持文档提取 document_quotes 和 clue_quotes,确认文本证据匹配后再纳入训练集,这一机制使得人工标注需求最小化,同时在所有领域达到了超过 80% 的人类对齐准确率。

强化学习的反馈机制

Context-1 的训练采用可验证奖励强化学习(RLVR),基于 CISPO(Clipped Importance-Sampled Policy Optimization)算法 —— 这是 GRPO 的一种变体,对重要性采样权重进行裁剪而非裁剪代理目标。这一选择被证明对防止熵坍缩至关重要,尤其在扩展训练步数时表现优于标准 GRPO 和 Dr GRPO。

奖励函数由四个组件构成:Outcome 组件计算最终输出集合的 F1 分数,初始时 Recall 权重为 Precision 的 16 倍;Process 组件奖励轨迹召回率,即使相关文档在最终输出中被修剪也不影响得分;Final Answer Bonus 是找到直接包含答案的 chunk 时的二元奖励;两个惩罚项分别针对连续修剪超过 3 次的过度修剪行为和超过 64 轮的冗长轨迹。

每个训练步骤从数据集中采样 128 个查询,为每个查询创建 8 个独立环境实例执行 rollout,产生 1024 条轨迹。使用组内归一化计算优势函数,丢弃所有 8 个 rollout 获得相同奖励的组以消除无梯度信号。CISPO 损失计算后执行 4 个子步的梯度下降,训练约 230 步后收敛。

在推理侧,模型使用 MXFP4 量化在 Nvidia B200 GPU 上通过 vLLM 服务,吞吐量达到 400-500 tokens / 秒。Token 预算管理通过三个机制实现:每轮后向观察追加当前使用量(如 [Token usage: 14,203/32,768]);软阈值在超过 20k tokens 时注入提示建议修剪或提交最终答案;硬 cutoff 在超过 28k tokens 时拒绝除 prune_chunks 外的所有工具调用。

工程实现的关键参数

Agent 的工具集包含四个核心操作:search_corpus 执行混合 BM25 + 密集向量检索,通过互惠秩融合(RRF)合并结果,检索 50 个候选后由重排器选取 top 结果;grep_corpus 执行正则表达式搜索,返回最多 5 个匹配块;read_document 按 ID 读取完整文档内容;prune_chunks 从对话上下文中移除指定块。搜索去重机制追踪所有先前调用中遇到的 chunk ID,并在后续搜索中将其作为排除过滤器,强制每次搜索呈现新信息。

Token 预算的具体配置为:单次搜索调用最多返回 4k tokens 的 chunk 内容;软阈值设定在 20k tokens(总预算 32k tokens 的约 60%);硬 cutoff 设定在 28k tokens。每个 query 的 8 个独立 rollout 完成后进行互惠秩融合输出,4x 并行配置仍比单次调用前沿模型更便宜。

性能验证与可迁移洞察

在自建基准测试上,Context-1(1x)在网页域(难度 2+)达到 0.88,4x 配置达到 0.97,与使用 200k 上下文且无修剪工具的前沿模型 GPT-5.2(0.99)和 Opus-4.5(0.99)相当。关键指标显示:轨迹召回率从基线模型的 0.640 提升至 0.739,输出召回率从 0.361 提升至 0.641,F1 从 0.307 提升至 0.487,终答案发现率从 0.541 提升至 0.798。

行为层面,Context-1 展现出显著改进:每轮平均工具调用数从 1.52 增至 2.56(提升 68%),轨迹轮数从 6.7 降至 5.2(减少 22%),修剪准确率从 0.824 提升至 0.941。更值得注意的是,尽管仅在网页、法律和金融领域训练,模型在未见的邮件域任务上仍展现 0.92 的输出召回率,表明核心检索技能具有跨域迁移能力。

对于希望构建类似系统的团队,以下参数值得优先考虑:使用 8 个并行 rollout 并通过 RRF 融合结果以提升稳健性;奖励函数中 Recall:Precision 比例从 16:1 逐步退火至 4:1;采用 CISPO 而非标准 GRPO 以维持训练稳定性;token 软阈值设为预算的 60%,硬 cutoff 设为 85%;保留完整未修剪轨迹用于奖励计算,即使 chunk 已被移除。

资料来源:Chroma Context-1 研究论文(https://www.trychroma.com/research/context-1)