从实验室到GDP：OpenAI3万亿测试，解锁AI第四生产要素

排行榜 2025年09月29日 04:02 0 admin

2025年9月这阵子，OpenAI整了个大动静，搞了个叫GDPval的考评体系，直接让AI跟44个行业的人类专家比试，还扯到了3万亿的经济盘子。

之前业内还天天聊AGI能解放80%日常工作，这才多久，风向就变了，现在都在说ASI，就是那种能全面超越人类智能的系统，感觉AI行业的节奏是真快。

而且前段时间a16z的访谈里，OpenAI首席科学家JakubPachocki还说了，他们下一步要攻“推理”，未来5年想搞出“自动化研究人员”，让AI自己找新想法、自己做科研、自己搞机器学习研究。

本来想这目标听着挺玄乎，直到看到GDPval的测试内容，才发现他们是想拿真东西说话，不是光画饼。

3万亿经济里找任务

之前看AI测试，大多是考学术题或者写代码，比如那个MMLU，覆盖57个学科看着挺全，但企业用的时候总说“不贴实际”，还有SWE-Bench只盯着软件工程改bug，其他行业根本用不上。

OpenAI搞GDPval，就是想补这个窟窿，毕竟光在实验室里厉害没用，得能帮人干活才算数。

这个GDPval的任务库是真下了功夫，覆盖9大行业、44种职业，加起来对应每年3万亿的经济价值。

里面1320个任务全是真家伙，比如律师的法律意见书、护士的护理计划、工程师的图纸，连客服对话记录都有。

而且每个任务都得经过5轮审核，写任务的人、行业里的独立专家都要过一遍，还得校验AI能不能做、要求清不清晰。

要是任务本身就脱离实际，测出来的结果再好看也没用。

更重要的是，OpenAI还把GDPval的论文、数据集全公开了，连220个金标任务都放出来让大家用。

HuggingFace的数据，首周下载量就破10万，不少高校和企业都拿去研究了。

这种不藏着掖着的做法，比那些只说“我家AI很牛”却拿不出证据的强多了，毕竟AI要真能帮上忙，大家一起推进才快。

聊完测试本身，就得说说那些AI模型到底考得咋样。

这次一共7个主流模型参赛，有GPT-4o、GPT-5，还有ClaudeOpus4.1、Gemini2.5Pro这些。

本来想GPT系列作为OpenAI的“亲儿子”，应该能稳拿第一，后来发现不是这么回事，ClaudeOpus4.1表现最突出。差不多一半的任务里，它的输出要么跟人类专家一样好，要么还更好，尤其在文档排版、PPT布局这些需要“美感”的活儿上，比GPT-5强不少。

不过GPT系列的进步也挺吓人，从2024年春的GPT-4o到2025年夏的GPT-5，才一年时间，在GDPval上的胜率差不多翻了一倍。

而且不同行业里AI的发挥也不一样，金融行业里AI表现最好，像财务报表分析这种活儿，赢人类的概率挺高；但医疗行业就差点，毕竟涉及到病人安危，需要伦理判断和临床经验，AI暂时还没法完全顶上去。

这种差异其实挺正常，毕竟每个行业的“门槛”不一样，AI想通吃还得再练阵子。

AI快还便宜，但人还是少不了

说到AI的优势，最明显的就是快和便宜。

OpenAI说，AI完成GDPval任务的速度和成本，平均下来就人类的1%，简单说，人类要花100小时干的活，AI1小时就搞定，成本也差100倍。

人类做一份律师助理级别的合同审查，大概要8小时，收费差不多200美元；AI只用4分多钟，成本才2美元，这差距确实大。

这数据没算上人类监督和修改的成本，要是让AI单独写一份重要合同，谁敢直接用？现在很多公司都在用“AI初审+人类复核”的模式，先让AI把初稿弄出来，人再检查有没有错漏。

这么一来，成本能降60%，错误率也从人类单独处理的8%降到3%，既省了钱又少出错，这种“人机配合”的路子其实更实际，毕竟AI再厉害，也没法完全替代人对复杂情况的判断。

而且这次给AI打分的团队，也不是随便找的人。

这些评分员平均有14年行业经验，简历里得有专业认证，还得有管理经验，来源也都是大机构，像Meta、微软、摩根士丹利，还有美国疾控中心、国防部这些。

同一任务会让两个专家分开评，要是有分歧，再找第三个专家仲裁，最后分歧率才9%。

要是评分的人不专业，AI的成绩再高也没意义。

比如评法律任务，得知道条款准不准确、合不合规、有没有漏掉风险提示；评医疗任务，得懂临床指南，知道护理计划对不对。

这些都得靠行业里的老炮来判断，AI自己评自己肯定不算数，毕竟最终用AI的是人类，得人类觉得好用才算真行。

有个叫ShanakaAnslemPerera的独立研究员说，GDPval不只是一套测试体系，更像“后人类经济时代的第一套会计体系”，言下之意是AI要成为超越土地、劳动、资本的第四生产要素了。

世界银行之前也预测过，要是AI真能做到这步，全球GDP每年能多增2.5%，GDPval覆盖的3万亿领域增速可能还会更高。

但OpenAI没想着让AI“取代人”，而是想让AI“帮人”。

他们现在正跟Coursera、Udemy这些教育机构合作，开发“AI协作技能课程”，教大家怎么跟AI配合干活，比如用AI辅助数据分析、写法律文书。

后面还打算搞“AI技能认证”，有证的人找工作时能更有优势。

这种帮劳动者适应变化的做法，比那些只喊“AI会抢工作”的焦虑言论实在多了，毕竟技术进步的目的，是让人从重复的活儿里解放出来，去做更有创造力的事，比如医生不用天天写病历，能多琢磨治病方案；设计师不用天天调格式，能多想创意，这才是AI该干的。

OpenAI这次3万亿的GDPval测试，不是为了秀AI多厉害，而是想证明AI能真真切切帮到现实经济，帮到普通人的工作。

ASI也好，自动化研究人员也罢，最终都得落到“实用”上。

未来AI可能真就成了工作里的“好搭档”，不是敌人。

只要大家能跟上节奏，学会跟AI配合，说不定真能像OpenAI说的那样，从日常琐事里解放出来，多做点有意思、有创造性的事，这种未来，其实还挺值得期待的。

美团大众统治10年，高德导航数据弯道超车，真实榜单让小店获新生

全省首批！安医大五附院上榜！

发表评论

从实验室到GDP：OpenAI3万亿测试，解锁AI第四生产要素

3万亿经济里找任务

AI快还便宜，但人还是少不了

美团大众统治10年，高德导航数据弯道超车，真实榜单让小店获新生

全省首批！安医大五附院上榜！

热门文章

最新文章