变频供水是一种基于变频调速技术的智能化供水的设备系统,通过压力检测实时获得用户用水量的变化,据此自动调节水泵的转速和启停数量,实现按需供水。变频供水相...
2025-09-29 0
2025年9月这阵子,OpenAI整了个大动静,搞了个叫GDPval的考评体系,直接让AI跟44个行业的人类专家比试,还扯到了3万亿的经济盘子。
之前业内还天天聊AGI能解放80%日常工作,这才多久,风向就变了,现在都在说ASI,就是那种能全面超越人类智能的系统,感觉AI行业的节奏是真快。
而且前段时间a16z的访谈里,OpenAI首席科学家JakubPachocki还说了,他们下一步要攻“推理”,未来5年想搞出“自动化研究人员”,让AI自己找新想法、自己做科研、自己搞机器学习研究。
本来想这目标听着挺玄乎,直到看到GDPval的测试内容,才发现他们是想拿真东西说话,不是光画饼。
之前看AI测试,大多是考学术题或者写代码,比如那个MMLU,覆盖57个学科看着挺全,但企业用的时候总说“不贴实际”,还有SWE-Bench只盯着软件工程改bug,其他行业根本用不上。
OpenAI搞GDPval,就是想补这个窟窿,毕竟光在实验室里厉害没用,得能帮人干活才算数。
这个GDPval的任务库是真下了功夫,覆盖9大行业、44种职业,加起来对应每年3万亿的经济价值。
里面1320个任务全是真家伙,比如律师的法律意见书、护士的护理计划、工程师的图纸,连客服对话记录都有。
而且每个任务都得经过5轮审核,写任务的人、行业里的独立专家都要过一遍,还得校验AI能不能做、要求清不清晰。
要是任务本身就脱离实际,测出来的结果再好看也没用。
更重要的是,OpenAI还把GDPval的论文、数据集全公开了,连220个金标任务都放出来让大家用。
HuggingFace的数据,首周下载量就破10万,不少高校和企业都拿去研究了。
这种不藏着掖着的做法,比那些只说“我家AI很牛”却拿不出证据的强多了,毕竟AI要真能帮上忙,大家一起推进才快。
聊完测试本身,就得说说那些AI模型到底考得咋样。
这次一共7个主流模型参赛,有GPT-4o、GPT-5,还有ClaudeOpus4.1、Gemini2.5Pro这些。
本来想GPT系列作为OpenAI的“亲儿子”,应该能稳拿第一,后来发现不是这么回事,ClaudeOpus4.1表现最突出。差不多一半的任务里,它的输出要么跟人类专家一样好,要么还更好,尤其在文档排版、PPT布局这些需要“美感”的活儿上,比GPT-5强不少。
不过GPT系列的进步也挺吓人,从2024年春的GPT-4o到2025年夏的GPT-5,才一年时间,在GDPval上的胜率差不多翻了一倍。
而且不同行业里AI的发挥也不一样,金融行业里AI表现最好,像财务报表分析这种活儿,赢人类的概率挺高;但医疗行业就差点,毕竟涉及到病人安危,需要伦理判断和临床经验,AI暂时还没法完全顶上去。
这种差异其实挺正常,毕竟每个行业的“门槛”不一样,AI想通吃还得再练阵子。
说到AI的优势,最明显的就是快和便宜。
OpenAI说,AI完成GDPval任务的速度和成本,平均下来就人类的1%,简单说,人类要花100小时干的活,AI1小时就搞定,成本也差100倍。
人类做一份律师助理级别的合同审查,大概要8小时,收费差不多200美元;AI只用4分多钟,成本才2美元,这差距确实大。
这数据没算上人类监督和修改的成本,要是让AI单独写一份重要合同,谁敢直接用?现在很多公司都在用“AI初审+人类复核”的模式,先让AI把初稿弄出来,人再检查有没有错漏。
这么一来,成本能降60%,错误率也从人类单独处理的8%降到3%,既省了钱又少出错,这种“人机配合”的路子其实更实际,毕竟AI再厉害,也没法完全替代人对复杂情况的判断。
而且这次给AI打分的团队,也不是随便找的人。
这些评分员平均有14年行业经验,简历里得有专业认证,还得有管理经验,来源也都是大机构,像Meta、微软、摩根士丹利,还有美国疾控中心、国防部这些。
同一任务会让两个专家分开评,要是有分歧,再找第三个专家仲裁,最后分歧率才9%。
要是评分的人不专业,AI的成绩再高也没意义。
比如评法律任务,得知道条款准不准确、合不合规、有没有漏掉风险提示;评医疗任务,得懂临床指南,知道护理计划对不对。
这些都得靠行业里的老炮来判断,AI自己评自己肯定不算数,毕竟最终用AI的是人类,得人类觉得好用才算真行。
有个叫ShanakaAnslemPerera的独立研究员说,GDPval不只是一套测试体系,更像“后人类经济时代的第一套会计体系”,言下之意是AI要成为超越土地、劳动、资本的第四生产要素了。
世界银行之前也预测过,要是AI真能做到这步,全球GDP每年能多增2.5%,GDPval覆盖的3万亿领域增速可能还会更高。
但OpenAI没想着让AI“取代人”,而是想让AI“帮人”。
他们现在正跟Coursera、Udemy这些教育机构合作,开发“AI协作技能课程”,教大家怎么跟AI配合干活,比如用AI辅助数据分析、写法律文书。
后面还打算搞“AI技能认证”,有证的人找工作时能更有优势。
这种帮劳动者适应变化的做法,比那些只喊“AI会抢工作”的焦虑言论实在多了,毕竟技术进步的目的,是让人从重复的活儿里解放出来,去做更有创造力的事,比如医生不用天天写病历,能多琢磨治病方案;设计师不用天天调格式,能多想创意,这才是AI该干的。
OpenAI这次3万亿的GDPval测试,不是为了秀AI多厉害,而是想证明AI能真真切切帮到现实经济,帮到普通人的工作。
ASI也好,自动化研究人员也罢,最终都得落到“实用”上。
未来AI可能真就成了工作里的“好搭档”,不是敌人。
只要大家能跟上节奏,学会跟AI配合,说不定真能像OpenAI说的那样,从日常琐事里解放出来,多做点有意思、有创造性的事,这种未来,其实还挺值得期待的。
相关文章
变频供水是一种基于变频调速技术的智能化供水的设备系统,通过压力检测实时获得用户用水量的变化,据此自动调节水泵的转速和启停数量,实现按需供水。变频供水相...
2025-09-29 0
一台22千瓦滑环电机运行时咔咔响,找到了一个问题处理了,结果电机运行时异响的问题还是没解决。工人当场质问我半小时电机都没修好你干啥了?我直接回答他电机...
2025-09-29 0
中科曙光:国内领先的高性能计算(HPC)、服务器、存储、云计算、大数据、人工智能和先进计算解决方案企业。三花智控:专注于制冷空调电器零部件业务和汽车零...
2025-09-29 0
2025年9月这阵子,OpenAI整了个大动静,搞了个叫GDPval的考评体系,直接让AI跟44个行业的人类专家比试,还扯到了3万亿的经济盘子。之前业...
2025-09-29 0
9月10日,就在阿里巴巴成立26周年这个特殊日子,高德地图正式推出了"扫街榜",这个全球首个基于用户真实行为数据的生活服务榜单,像一颗重磅炸弹投向了本...
2025-09-29 0
互联网曾经会带你踏上一段探索之旅。你输入问题,筛选链接,决定信任什么。现在,一个新的层面出现了:AEO(答案引擎优化)。AI系统不再提供信息来源,而是...
2025-09-29 0
开幕式现场。工业机器人系统运维赛项现场。无人机装调检修赛项现场。红网时刻新闻9月28日讯(记者 李文洁)9月27日,湖南省第二届职工数字化应用技术技能...
2025-09-29 1
9月26日下午,以“艺智共生,以技融创”为主题的北京市朝阳区“AI+美育第一课”活动在充满艺术与科技气息的798·751园区成功举办。本次活动由北京市...
2025-09-29 1
发表评论