首页 排行榜文章正文

从实验室到GDP:OpenAI3万亿测试,解锁AI第四生产要素

排行榜 2025年09月29日 04:02 0 admin
从实验室到GDP:OpenAI3万亿测试,解锁AI第四生产要素

2025年9月这阵子,OpenAI整了个大动静,搞了个叫GDPval的考评体系,直接让AI跟44个行业的人类专家比试,还扯到了3万亿的经济盘子。

之前业内还天天聊AGI能解放80%日常工作,这才多久,风向就变了,现在都在说ASI,就是那种能全面超越人类智能的系统,感觉AI行业的节奏是真快。

而且前段时间a16z的访谈里,OpenAI首席科学家JakubPachocki还说了,他们下一步要攻“推理”,未来5年想搞出“自动化研究人员”,让AI自己找新想法、自己做科研、自己搞机器学习研究。

从实验室到GDP:OpenAI3万亿测试,解锁AI第四生产要素

本来想这目标听着挺玄乎,直到看到GDPval的测试内容,才发现他们是想拿真东西说话,不是光画饼。

3万亿经济里找任务

之前看AI测试,大多是考学术题或者写代码,比如那个MMLU,覆盖57个学科看着挺全,但企业用的时候总说“不贴实际”,还有SWE-Bench只盯着软件工程改bug,其他行业根本用不上。

OpenAI搞GDPval,就是想补这个窟窿,毕竟光在实验室里厉害没用,得能帮人干活才算数。

这个GDPval的任务库是真下了功夫,覆盖9大行业、44种职业,加起来对应每年3万亿的经济价值。

从实验室到GDP:OpenAI3万亿测试,解锁AI第四生产要素

里面1320个任务全是真家伙,比如律师的法律意见书、护士的护理计划、工程师的图纸,连客服对话记录都有。

而且每个任务都得经过5轮审核,写任务的人、行业里的独立专家都要过一遍,还得校验AI能不能做、要求清不清晰。

要是任务本身就脱离实际,测出来的结果再好看也没用。

更重要的是,OpenAI还把GDPval的论文、数据集全公开了,连220个金标任务都放出来让大家用。

从实验室到GDP:OpenAI3万亿测试,解锁AI第四生产要素

HuggingFace的数据,首周下载量就破10万,不少高校和企业都拿去研究了。

这种不藏着掖着的做法,比那些只说“我家AI很牛”却拿不出证据的强多了,毕竟AI要真能帮上忙,大家一起推进才快。

聊完测试本身,就得说说那些AI模型到底考得咋样。

这次一共7个主流模型参赛,有GPT-4o、GPT-5,还有ClaudeOpus4.1、Gemini2.5Pro这些。

本来想GPT系列作为OpenAI的“亲儿子”,应该能稳拿第一,后来发现不是这么回事,ClaudeOpus4.1表现最突出。差不多一半的任务里,它的输出要么跟人类专家一样好,要么还更好,尤其在文档排版、PPT布局这些需要“美感”的活儿上,比GPT-5强不少。

从实验室到GDP:OpenAI3万亿测试,解锁AI第四生产要素

不过GPT系列的进步也挺吓人,从2024年春的GPT-4o到2025年夏的GPT-5,才一年时间,在GDPval上的胜率差不多翻了一倍。

而且不同行业里AI的发挥也不一样,金融行业里AI表现最好,像财务报表分析这种活儿,赢人类的概率挺高;但医疗行业就差点,毕竟涉及到病人安危,需要伦理判断和临床经验,AI暂时还没法完全顶上去。

这种差异其实挺正常,毕竟每个行业的“门槛”不一样,AI想通吃还得再练阵子。

AI快还便宜,但人还是少不了

说到AI的优势,最明显的就是快和便宜。

从实验室到GDP:OpenAI3万亿测试,解锁AI第四生产要素

OpenAI说,AI完成GDPval任务的速度和成本,平均下来就人类的1%,简单说,人类要花100小时干的活,AI1小时就搞定,成本也差100倍。

人类做一份律师助理级别的合同审查,大概要8小时,收费差不多200美元;AI只用4分多钟,成本才2美元,这差距确实大。

这数据没算上人类监督和修改的成本,要是让AI单独写一份重要合同,谁敢直接用?现在很多公司都在用“AI初审+人类复核”的模式,先让AI把初稿弄出来,人再检查有没有错漏。

这么一来,成本能降60%,错误率也从人类单独处理的8%降到3%,既省了钱又少出错,这种“人机配合”的路子其实更实际,毕竟AI再厉害,也没法完全替代人对复杂情况的判断。

从实验室到GDP:OpenAI3万亿测试,解锁AI第四生产要素

而且这次给AI打分的团队,也不是随便找的人。

这些评分员平均有14年行业经验,简历里得有专业认证,还得有管理经验,来源也都是大机构,像Meta、微软、摩根士丹利,还有美国疾控中心、国防部这些。

同一任务会让两个专家分开评,要是有分歧,再找第三个专家仲裁,最后分歧率才9%。

要是评分的人不专业,AI的成绩再高也没意义。

比如评法律任务,得知道条款准不准确、合不合规、有没有漏掉风险提示;评医疗任务,得懂临床指南,知道护理计划对不对。

从实验室到GDP:OpenAI3万亿测试,解锁AI第四生产要素

这些都得靠行业里的老炮来判断,AI自己评自己肯定不算数,毕竟最终用AI的是人类,得人类觉得好用才算真行。

有个叫ShanakaAnslemPerera的独立研究员说,GDPval不只是一套测试体系,更像“后人类经济时代的第一套会计体系”,言下之意是AI要成为超越土地、劳动、资本的第四生产要素了。

世界银行之前也预测过,要是AI真能做到这步,全球GDP每年能多增2.5%,GDPval覆盖的3万亿领域增速可能还会更高。

从实验室到GDP:OpenAI3万亿测试,解锁AI第四生产要素

但OpenAI没想着让AI“取代人”,而是想让AI“帮人”。

他们现在正跟Coursera、Udemy这些教育机构合作,开发“AI协作技能课程”,教大家怎么跟AI配合干活,比如用AI辅助数据分析、写法律文书。

后面还打算搞“AI技能认证”,有证的人找工作时能更有优势。

这种帮劳动者适应变化的做法,比那些只喊“AI会抢工作”的焦虑言论实在多了,毕竟技术进步的目的,是让人从重复的活儿里解放出来,去做更有创造力的事,比如医生不用天天写病历,能多琢磨治病方案;设计师不用天天调格式,能多想创意,这才是AI该干的。

从实验室到GDP:OpenAI3万亿测试,解锁AI第四生产要素

OpenAI这次3万亿的GDPval测试,不是为了秀AI多厉害,而是想证明AI能真真切切帮到现实经济,帮到普通人的工作。

ASI也好,自动化研究人员也罢,最终都得落到“实用”上。

未来AI可能真就成了工作里的“好搭档”,不是敌人。

只要大家能跟上节奏,学会跟AI配合,说不定真能像OpenAI说的那样,从日常琐事里解放出来,多做点有意思、有创造性的事,这种未来,其实还挺值得期待的。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap