OpenAI 开源 BrowseComp，重塑 Agent 浏览器评测，这意味着什么？

来源：编辑：时间：2025-06-22 02:10:15

（又从草稿箱翻出一篇本该四月写完的文章…我的草稿箱里究竟还藏着多少 TODO 啊…）先问大家两个问题：各家 AI 现在都做了 Deep Research，那么如何比较不同的深度研究之间的能力高低呢？***设一道题目客观上存在唯一正确答案，且相关信息线索绝对可以在互联网上搜到，在允许使用搜索引擎的情况下，你觉得自己能做出来吗？当下最先进的 AI Agent 呢？为了验证大模型、Agent 网上冲浪的能力，OpenAI 编了一套超难的试卷，里面有 …。

OpenAI 开源 BrowseComp，重塑 Agent 浏览器评测，这意味着什么？

{dede:pagebreak/}

上一篇 : 为什么腰肌劳损这么难治？
下一篇 : 女婿不喜欢去丈母娘家的原因是什么？

[/]