新AI优化框架Arbor在相同算力预算下超越Claude Code和Codex 2.5倍

摘要

中国人民大学与微软研究院提出Arbor框架,在自主优化任务中实现2.5倍性能提升。

中国人民大学与微软研究院的研究人员提出了一种名为Arbor的新框架,将AI驱动的自主优化从反复试错转变为累积学习过程。在同等资源预算下,Arbor的性能提升达到标准AI编码代理的2.5倍以上。

自主优化的瓶颈

随着大语言模型能力的提升,AI系统被期望执行更复杂的自主优化(AO)任务。然而,工程团队发现,仅仅给编码代理更多时间或算力并不一定能带来更好的结果。

正如论文合著者Jiajie Jin所言:"自动化可以让AI工作很长时间——但循环不等于进步。如果目标模糊,或者指标容易被操纵,长期运行的自动化往往只是更快地产生人们不想要的"改进"。"

Arbor框架的核心设计

Arbor通过两个关键组件解决了这个问题:

协调器(Coordinator):一个长期运行的AI代理,充当首席研究员的角色。它从不直接编辑目标代码库,而是拥有研究的整体状态,观察积累的证据,提出新的假设和探索方向。

执行器(Executor):短期、高度聚焦的AI代理。当协调器想测试一个想法时,它会启动一个执行器并将其放置在隔离环境中(独立的git worktree)。每个执行器只接收一个假设,实现分配的想法,运行评估,调试错误,并向协调器报告结果。

这两个组件通过假设树精炼(Hypothesis Tree Refinement, HTR)机制协作。HTR将整个研究过程表示为一个持久的、分支的树形结构,每个节点绑定四个要素:假设、可执行工件、产生的事实证据和提炼的洞察。

实际测试表现

在MLE-Bench Lite基准测试中:

  • Arbor在所有任务上均取得了最佳测试结果
  • 在BrowseComp任务中,Arbor将系统的保留准确率从基线的45.33%提升到67.67%,而Codex和Claude Code分别停滞在50%和53.33%
  • Arbor展现出更强的抗过拟合能力——在Terminal-Bench 2.0任务中,Arbor的开发得分为72.22(低于Claude Code的75),但在保留数据上达到了最高的77.36分

当配备GPT-5.5时,Arbor在所有基准测试系统中取得了最强结果。

部署建议

Arbor适合具有清晰可信指标、容忍长周期、且存在多个可行方向的任务,如管道优化、数据合成质量、模型训练配方调优等。

需要注意的代价包括:维持长期协调器的token成本是主要开销;并发运行多个隔离工作树需要真实的算力和磁盘资源。

论文链接:https://arxiv.org/abs/2606.11926



微信扫描下方的二维码阅读本文