AI若能自主复现顶尖科研论文,未来科研将被掀翻天。OpenAI最新框架PaperBench正为此生,让AI智能体从头开始复现ICML 2024 20篇优秀论文,只有Claude 3.5 Sonnet拔得头筹,但仍无法超越ML博士水平。
AI智能体,能否复现顶会中重磅的AI研究?
今天,OpenAI团队发布了全新框架PaperBench,便可评估AI智能体复现顶尖研究的基础能力。

论文地址:
https://openai.com/index/paperbench/
要求是,AI智能体需从0开始复现20篇ICML 2024 Spotlight和Oral论文,包括理解论文核心文献、开发可运行代码库,以及执行实验并验证结果。
为了客观评估AI成果,OpenAI联手每篇ICML论文作者开发了「评估标准」,将每个复制任务层次化分解为具有明确评分标准的较小子任务。
总共,PaperBench包含8,316个可单独评分的任务。

结果发现,只有Claude 3.5 Sonnet(New)拿下了最高分21.0%,o1-high得分13.2%,DeepSeek-R1是6%,GPT-4o是4.1%。
遗憾的是,即便是最领先的LLM,仍无法超越机器学习博士。

目前,OpenAI将PaperBench的所有代码开源。

GitHub地址:
https://github.com/openai/preparedness
AI挑战复现ICML 2024大作
PaperBench的目标,直指AI智能体的科研潜力。
若要完整复现ICML 2024 20篇优秀的论文,意味着AI不仅需要理解论文核心思想,还得自主开发代码库、运行实验,甚至是排除故障。
要知道,这是一项连人类研究员需要好几天,才能完成的高难度任务。

这项研究的主要贡献包括:
PaperBench:一个包含20篇ML研究论文和经作者批准的评分标准的基准测试,以及使用基于LLM评估的自动评分工作流程。
PaperBench Code-Dev:基准测试的一个更轻量级的变体,放宽了PaperBench的一些要求,使设置和评估对更广泛的社区更易于使用。
JudgeEval:一个包含人类评分提交结果的数据集,可用作开发和评估自动评估的辅助工具。
在PaperBench上对SOTA模型的评估:对几个前沿AI智能体执行长周期任务和机器学习研发能力的综合评估。
更重要的是,PaperBench不仅是一个学术实验,它还与其他AI安全框架紧密关联。
它可用作OpenAI的准备框架中的模型自主性度量、Anthropic负责任扩展政策中的自主能力指标,以及Google DeepMind的前沿安全框架中的机器学习研发评估工具。
PaperBench:20篇论文,8316个任务
如上所述,PaperBench选取了来自ICML 2024中20篇 Spotlight和Oral论文,主要覆盖了12个主题。
其中包括,深度强化学习、鲁棒性和概率方法。
而且,每篇论文都配备了详细的评分标准,总计8,316个可单独评估的评分项目。
这些标准均是由每篇论文原作者与OpenAI共同制定,确保评估过程中的准确性和权威性。
评分标准采用层次结构,将复杂的复现目标分解为细粒度子任务。
任务+复现
对于PaperBench中的每个样本,AI智能体会收到论文和论文澄清说明的附录。
候选智能体必须提交一个包含复现论文实证结果所需的所有代码的代码库,而且代码库根目录必须包含一个reproduce.sh文件,作为执行所有必要代码以复现论文结果的入口点。
当提交的reproduce.sh能够在全新环境中成功复现论文中报告的实证结果时,AI智能体便成功完成复现任务。
树级评分
在基准测试中,每篇论文都配有一个评分标准,明确规定了完整论文复制的评估要求。
评分标准被设置为一个要求层级结构,每个叶节点(leaf node)指定一个明确的通过/失败标准(见图2),且每个节点都根据其相对于同级节点的重要性被手动赋予了权重。
对于一个叶节点标准,评估者会判断提交内容是否满足其要求,如果满足则给予1分,否则给0分。
当所有叶节点都被评分后,父节点(parent node)的分数将等于其所有子节点分数的加权平均值。
这一计分过程会一直向上传递到树的根节点(root),根节点的分数即被视为该提交的最终复制分数(Replication Score)。
换句话说,每个提交的评分是基于所有满足的评分标准要求的权重调整后的比例,其中100%表示完美复制,即满足了所有叶节点的要求。
目前,论文中主要评估指标是所有论文的平均复制分数。

每个叶节点具有三种可能的需求类型之一,这决定了其评分方式。
结果匹配(Result Match)叶节点评估已执行的提交是否包含复制论文中特定结果的证据。
执行(Execution)叶节点评估运行reproduce.sh脚本时是否产生了某些特定的执行结果。
代码开发(Code Development)叶节点评估候选者的源代码是否包含某些需求的正确实现。
可以上网,但不能查看原作者代码库
PaperBench设计为与智能体支持框架(agent scaffolds)无关,因此研究团队对智能体的运行环境没有特定要求。然而,基准测试确实制定了一些规则来确保公平比较:
智能体可以浏览互联网,但不得使用OpenAI提供的每篇论文黑名单中网站的资源。每篇论文的黑名单包括作者自己的代码库和任何其他在线复制实现。
智能体可使用的资源,如运行时间和计算能力,不受任何限制。
开发者应为智能体提供必要的在线服务API密钥(例如,用于下载数据集的HuggingFace凭证)。
对于实验,OpenAI还构建了一个简单的后处理监控工具,用于检查智能体日志中是否出现黑名单URL,发现可疑情况后会提交给人工审核,以取消使用黑名单资源的任何提交资格。
LLM评判成本降至10美金,比专家更高效
面对如此复杂的任务,人工评分显然不现实。
一篇论文的复现尝试,通常需要人类专家数十小时来评估。
为此,OpenAI团队开发了一个基于大模型自动评判系统,并推出了辅助工具JudgeEval,用来验证自动评判者的表现。
对于给定的提交内容,评判系统SimpleJudge会独立地对评分标准中的每个叶节点进行评分。
针对特定叶节点,评判系统会接收论文的Markdown格式文本、完整的评分标准JSON文件、叶节点的具体要求和提交内容作为提示词。
如下图5所示,对于PaperBench Code-Dev,每篇论文的成本降至约10美元,证明了比聘请专家进行人工评分更加经济且高效。

Claude 3.5 Sonnet得分最高
实验中,研究人员对GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(New)和Gemini 2.0 Flash在所有20篇论文上进行了评估,每篇论文进行了3次运行。
而且,他们每个智能体设置了最长12小时的运行时限。
如下表4所示,展示了各模型的平均复现得分。
其中,Claude 3.5 Sonnet表现最出色,得分达到21.0%。OpenAI o1表现较弱,得分为13.2%,其他模型表现不佳,得分均低于10%。

为了更好地理解智能体性能,研究人员手动检查了几个智能体的运行日志。
他们发现,除了Claude 3.5 Sonnet外,所有模型都经常提前结束任务,声称它们要么已完成整个复现工作,要么遇到了无法解决的问题。
所有智能体都未能制定有效策略,考虑如何在有限时间内最优地复现论文。我们还观察到o3-mini在工具使用方面经常遇到困难。
这些失败模式表明当前模型在执行长期规划任务方面存在弱点:尽管在制定和编写多步骤计划方面表现出充分的能力,但模型未能实际采取一系列行动来执行这些计划。
迭代智能体
鉴于模型往往无法充分利用可用的全部时间,研究人员还测试了BasicAgent的一个变体。
这个变体通过移除智能体提前结束任务的能力,强制其在全部可用时间内持续运行,并使用经过优化的提示词来鼓励模型以逐步方式工作。
他们将这个智能体称为IterativeAgent。
研究人员使用IterativeAgent对o1、o3-mini和Claude 3.5 Sonnet进行了测试,如下表5所示。
他们发现使用IterativeAgent后,o1和o3-mini的得分显著提升。
值得注意的是,在使用BasicAgent时,Claude 3.5 Sonnet的表现优于o1,但在使用IterativeAgent时,其表现却不如o1。这表明为IterativeAgent优化的提示词,对OpenAI o系列模型有着不同程度的适用性。

研究人员推断,如果对BasicAgent进行类似修改,同样防止其提前结束任务,可能会使Claude 3.5 Sonnet的表现超过使用IterativeAgent的o1。
人类拿下41.4%
此外,研究人员还招募了8名目前正在攻读/已完成ML博士学位的参与者来挑战3篇论文的子集。
这里,他们采用了AI智能体类似的条件下评估参与者。
参与者会拿到PDF和Markdown格式的论文,以及论文的附录和尽可能接近用于AI智能体的指令,并可使用单个英伟达A10 GPU。
参与者兼职工作,有四周的时间窗口来取得尽可能多的进展。

另外,团队对使用IterativeAgent的o1进行了36小时的延长运行,每小时保存快照,并对1、3、6、12和36小时时拍摄的快照进行评分。
如图3所示,比较了o1的这次36小时延长运行与人类随时间的表现。
研究观察到,o1在复现尝试的早期阶段最初优于人类基准,但在24小时后,人类开始超过AI智能体。智能体最初优于人类但在更长时间跨度内落后的趋势与先前结果一致。
ML博士在48小时内(3次尝试取最佳)拿下了41.4%高分,而统一子集上,o1仅为26.6%分。
这表明,与人类专家相比,AI尽管进步显著但仍有差距。
此外,研究人员还推出了一个轻量级变体PaperBench Code-Dev,在这个版本中,o1的得分飙升至43.4%,显示出AI在简化任务上的潜力。

结论
21%得分或许只是一个开始。
PaperBench不仅揭示了AI智能体在科研中的潜力,也暴露它们在长期规划任务中的局限性。下一步,随着模型能力提升,它们能够接近甚至超越41.4%人类基准?
参考资料:
https://openai.com/index/paperbench/
本文来自微信公众号“新智元”,作者:新智元,编辑:桃子 好困,36氪经授权发布。