新AI优化框架Arbor在相同算力预算下超越Claude Code和Codex 2.5倍

摘要

中国人民大学与微软研究院提出Arbor框架，在自主优化任务中实现2.5倍性能提升。

中国人民大学与微软研究院的研究人员提出了一种名为Arbor的新框架，将AI驱动的自主优化从反复试错转变为累积学习过程。在同等资源预算下，Arbor的性能提升达到标准AI编码代理的2.5倍以上。

自主优化的瓶颈

随着大语言模型能力的提升，AI系统被期望执行更复杂的自主优化（AO）任务。然而，工程团队发现，仅仅给编码代理更多时间或算力并不一定能带来更好的结果。

正如论文合著者Jiajie Jin所言："自动化可以让AI工作很长时间——但循环不等于进步。如果目标模糊，或者指标容易被操纵，长期运行的自动化往往只是更快地产生人们不想要的"改进"。"

Arbor通过两个关键组件解决了这个问题：

协调器（Coordinator）：一个长期运行的AI代理，充当首席研究员的角色。它从不直接编辑目标代码库，而是拥有研究的整体状态，观察积累的证据，提出新的假设和探索方向。

执行器（Executor）：短期、高度聚焦的AI代理。当协调器想测试一个想法时，它会启动一个执行器并将其放置在隔离环境中（独立的git worktree）。每个执行器只接收一个假设，实现分配的想法，运行评估，调试错误，并向协调器报告结果。

这两个组件通过假设树精炼（Hypothesis Tree Refinement, HTR）机制协作。HTR将整个研究过程表示为一个持久的、分支的树形结构，每个节点绑定四个要素：假设、可执行工件、产生的事实证据和提炼的洞察。

在MLE-Bench Lite基准测试中：

Arbor在所有任务上均取得了最佳测试结果
在BrowseComp任务中，Arbor将系统的保留准确率从基线的45.33%提升到67.67%，而Codex和Claude Code分别停滞在50%和53.33%
Arbor展现出更强的抗过拟合能力——在Terminal-Bench 2.0任务中，Arbor的开发得分为72.22（低于Claude Code的75），但在保留数据上达到了最高的77.36分

当配备GPT-5.5时，Arbor在所有基准测试系统中取得了最强结果。