OpenAI 发布最新研究贝格富,却在里面夸了一波 Claude。
他们提出名为GDPval的新基准,用来衡量 AI 模型在真实世界具有经济价值的任务上的表现。
具体来说,GDPval 覆盖了对美国 GDP 贡献最大的 9 个行业中的 44 种职业,这些职业年均创收合计达 3 万亿美元。任务基于平均拥有 14 年经验的行业专家的代表性工作设计而成。
专业评分人员将主流模型的输出结果与人类专家的成果进行了对比。
最终测试下来,Claude Opus 4.1 成为表现最佳的模型,47.6% 的产出被评定媲美人类专家成果。
GPT-5 38.8% 的成绩和 Claude 还是有些差距,位居第二;GPT-4o 与人类相比只有 12.4% 获胜或平局。
没能成为最优,OpenAI 也给自己找补了:不同模型各有优势,Claude Opus 4.1 主要是在美学方面突出,而GPT-5 在准确性上更优。
OpenAI 还表示,同样值得注意的是模型的进步速度,其前沿模型在短短一年内,胜率几乎实现了翻倍。
最后 OpenAI 还开源了包含 220 项任务的优质子集,并提供公开的自动评分服务。
网友看后纷纷表示,非常因吹斯汀的研究:
OpenAI 各代模型的性能呈线性增长,以及感谢对竞争对手的认可。
还有网友认为,这也可能是奥特曼精心设计的宣传手段,通过吹嘘 AI 能为 GDP 带来增长而筹集资金。
下面具体来看一下这项测试。
测试 AI 的"挣钱"能力贝格富
OpenAI 指出,GDPval 相比现有的 AI 评估,好就好在:
任务基于真实工作成果且关联完成时间与成本,具备现实性;
涵盖 O*NET(美国职业信息网络)追踪的大部分职业工作活动,具有代表性广度;
任务要求处理多种格式文件并解析多个参考文件,涉及计算机使用与多模态;
除了正确性还需考虑结构、风格等主观因素,数据集也可作为评估自动评分系统性能的测试平台;
以胜率为主要指标无上限,支持持续评估;
任务难度高,行业专业人士平均需 7 小时完成,复杂任务甚至耗时数周。
其任务构建流程,首先从确定核心行业与职业入手。
OpenAI 先是筛选出了对美国 GDP 贡献超 5% 的 9 个行业(依据 2024 年第二季度各行业增加值占美国国内生产总值百分比数据),再在每个行业内挑选 5 个贡献工资总额最多且以数字任务为主的职业。
判断职业是否"以数字任务为主"时,参考 ONET 中该职业的所有任务,借助 GPT-4o 对任务按"数字 / 非数字"分类,结合 ONET 中任务的相关性、重要性和频率得分加权计算,若 60% 以上任务为数字任务,则将该职业纳入。
最终 OpenAI 筛选出了 44 个职业,这些职业合计年创收 3 万亿美元。
接着进行行业专业人士招募,要求参与任务创建的专家至少有 4 年相关职业经验,简历需体现专业认可度、晋升经历及管理职责。
经统计,招募来的行业专家平均经验达 14 年。
这些人还需进一步通过视频面试、背景调查、培训及测试才能参与该项目(OpenAI 还会给到一笔优厚报酬),其前雇主涵盖苹果、谷歌、微软、Meta、三星、甲骨文、IBM、摩根大通等众多知名企业与机构,确保专家具备扎实的行业实践基础。
任务创建环节,每个 GDPval 任务包含"需求"和"交付成果"两部分,行业专家会对照 O*NET 中自身职业的任务分类设计任务,以保证任务覆盖的广度与代表性。
为了评估任务质量贝格富,OpenAI 要求这些专家根据其职业的实际标准,对每项任务的难度、代表性、完成时间和整体质量等进行打分,并结合 OEWS(美国劳工统计局职业就业统计)数据中对应职业的中位时薪,通过"平均完成时间 × 时薪"计算每个任务的经济价值。
最终,GDPval 全集中总共包含 1320 项任务,所有任务均经过了"自动化模型筛选 + 多轮人类专家审核"的迭代流程,每个任务会获得至少 3 次、平均 5 次的人工审核。
专家在各评审阶段会给出详细意见。任务会根据意见反复修改完善。
Claude 表现媲美人类专家
OpenAI 开源了包含 220 项任务的优质子集,采用了盲态专家 pairwise 对比法(即专家不知晓待评成果来源的成对对比评分方式),对该子集进行评级。
每项对比评分平均耗时超过 1 小时。OpenAI 表示还额外邀请了更多职业领域专家,对人类专家与模型输出的成果进行评分。专家需为其选择及排序结果提供详细依据。
针对优质子集,OpenAI 同时开发了实验性自动评分器,其与人类专家评分的一致性达 66%,仅比人类间评分一致性(71%)低 5%。
对 GPT-4o、o4-mini、o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro 及 Grok 4 这几款模型进行评估后,结果显示:
在 GDPval 优质子集任务中,Claude Opus 4.1 是整体表现最佳的模型,尤其在美观性方面(如文档格式、幻灯片布局)表现突出。
其输出的成果中,有 47.6% 被评定为优于或等同于人类专家水平的成果。
OpenAI 各代模型在 GDPval 上的表现大致呈线性提升。
而根据下图所示,GPT-5 在准确性方面(如严格遵循指令、完成正确计算)优势显著。
换句话说,GPT-5 在纯文本任务上表现更优,但 Claude 在 .pdf、.xlsx、.ppt 等文件类型的处理上表现更佳,展现出更强的视觉感知与美观设计能力。
在 GDPval 优质子集的全部任务中,有略多于 50% 的任务里,至少有一个模型的输出成果优于人类专家或与人类专家相当。
OpenAI 还指出,将 AI 模型与人类监督结合,在完成任务时有望比单独人类专家更经济高效。
无论是"先让模型试做,不满意再自己改"的模式,还是"直接用模型成果""只让模型试一次就自己做"等模式,都能帮人类节省成本和时间。
此外,研究发现增加推理努力(如对 o3、GPT-5 设置不同推理强度)、提供更多任务背景、优化提示词与智能体辅助框架(如通过在容器中支持 GET 请求,采用" N=4 "的"最优 N 选 1 "抽样策略,搭配 GPT-5 作为判断模型)能显著提升模型性能。
OpenAI 也指出了 GDPval 的局限性,如数据集规模有限(仅 44 种职业)、聚焦可在计算机上完成的知识工作(不包含体力劳动等)、任务为精准指定的一次性任务(缺乏交互性)、自动评分器存在不足、评估成本高等。
目前,GDPval 尚处于初步阶段,OpenAI 计划在未来的迭代版本中,逐步拓展其覆盖范围、增强真实性与交互性,并纳入更多场景细节。
By the way,不光 OpenAI 觉得 Claude 好,曾经的亲密盟友微软最近传来消息:携手 Anthropic 优化 Microsoft 365 Copilot AI 助手(doge)。
参考链接:
[ 1 ] https://x.com/OpenAI/status/1971249374077518226
[ 2 ] https://evals.openai.com/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 量子位智库 AI100 季度榜单征集中!征集截至 10 月 10 日。欢迎提名 2025 年 Q3「AI 100」双榜单产品~
一键关注 � � 点亮星标
科技前沿进展每日见贝格富
长胜证券提示:文章来自网络,不代表本站观点。