在当代都市生活中,社交软件已成为人们拓展人际圈、寻找情感联结的重要工具,而用户始终关心的始终是“哪个软件可靠”。交友哪个软件可靠?接下来我们主要分享下...
2025-10-01 0
2025年9月底,AI圈炸了个大新闻:耶鲁、上交大等多国团队联合开发的Eigen-1系统,在被称为“人类最后考试”的HLE评测中,首次把分数干到了60分以上。
更让人意外的是,它没靠闭源超大模型,而是基于咱们国产开源的DeepSeekV3.1搭的架子,直接把GPT-5、谷歌Gemini这些巨头甩在了身后。
这可不是普通考试的分数突破,而是AI在顶尖科学推理领域的“成人礼”——意味着机器离帮人类解出诺贝尔奖级别的难题,又近了一大步。
可能有人会问,现在AI不是早就能考大学、过司法考试了吗?HLE有啥特别的?
这话还真说对了,普通测试早难不倒AI了。
像MMLU、GPQA这些传统基准,现在的大模型随便就能考到90分,根本分不出谁更厉害。
为了测试AI的真实硬实力,美国AI安全中心和ScaleAI联手搞出了HLE(Humanity’sLastExam),直译就是“人类最后考试”,光听名字就知道有多狠。
这套测试题有多难?总共3000道题,全是数学、自然科学、工程学这些领域的博士级难题,相当于让AI直接站上学术研究的最前沿。
而Eigen-1突破的HLEBio/ChemGold子集,更是“难中之难”——149道题全经过领域专家人工审核,剔除了所有歧义题和错题,是目前评估AI科学推理最靠谱的“尺子”。
在此之前,没有任何AI系统能在这个子集的Pass@5(五次尝试内做对)指标上摸到60分。
谷歌的Gemini2.5Pro才26.9%,OpenAI的GPT-5也只有22.82%,就算是马斯克家的Grok4,也才刚过30%,而Eigen-1直接干到了61.74%,一下把门槛拉高了一个维度。
更颠覆的是,Eigen-1的“出身”跟其他巨头不一样。
GPT-5、Gemini全是闭源的“黑盒子”,靠堆算力、堆数据硬冲;而Eigen-1的底座是完全开源的DeepSeekV3.1——这就好比用普通玩家能买到的零件,攒出了比专业赛车还快的跑车。
能实现这种反超,全靠黑科技加持,说通俗点就是让AI学会了“聪明地思考”,而不是“死记硬背”。
传统AI查资料就像老电脑换程序,每次要新信息都得“重启”——先停下推理,搜完再接着想,不仅慢,还容易忘事儿,业内叫这“工具税”。
Eigen-1的Monitor-basedRAG(隐式知识增强)就解决了这问题,它给AI装了个“监控器”,推理时一旦遇到不确定的地方,会自动提炼最关键的关键词去搜资料,然后像聊天时自然接话一样把信息插进去,全程不打断思路。
数据显示,这招直接把计算成本砍了53.5%,推理步骤少了43.7%,还比老办法更准。
比如算“单倍型计数”这道题时,AI一开始搞不清重组约束的规则,“监控器”立刻察觉到问题,精准搜到两个关键知识点,无缝补进推理过程,最后顺理成章算出了30个的正确答案。
以前的多智能体AI解题,就像开“民主大会”——几个AI各算各的,最后投票选答案,往往好思路会被平庸答案稀释。
Eigen-1的HSR(分层解法修复)换了个玩法:搞“层级精炼”,先挑一个最靠谱的答案当“锚点”,其他答案围着它做针对性修正,不是简单投票,而是真取长补短。
修正还分四个维度:补全逻辑漏洞、纠正计算错误、换更优解法、把话说清楚,确保每轮优化都有实效。
有次解“昆虫识别+花朵计数”的复合题,锚点答案选对了模型但算错了部署时间,其他AI立刻补上计算方法、修正数值,最后给出了完美答案。
这要是老办法投票,错的数值说不定就被带偏了。
AI解题常犯“瞎使劲”的毛病:简单题反复琢磨,难题反而草草收场,Eigen-1的QAIR(质量感知迭代推理)专治这个,给AI加了个“质量裁判”。
每做完一题,先从“逻辑通不通、答案对不对、解释全不全”三个维度打分,高分答案直接过,不用瞎折腾;低分答案才启动深度优化,把算力花在刀刃上。
靠着这招,Eigen-1在把准确率拉到48.3%的同时,还保持了极高效率,平均每道题只用53.4步推理。
Eigen-1的厉害之处,可不只在HLE这一个测试里,在SuperGPQA生物学难题(Hard版)里,它的Pass@5准确率冲到了78.26%;文献理解测试TRQA中,这一指标更是达到79.07%,全是行业顶尖水平。
研究团队还发现一个关键规律:AI犯错大多不是“没读懂题”或“不听话”(这两项错误占比才9.28%和13.40%),而是“推理乱了”和“知识用错了”(分别占92.78%和88.66%)。
这恰恰说明,Eigen-1的三大创新正好戳中了AI的“痛点”——与其一味堆数据,不如教会它正确的思考方式。
这可不是纸上谈兵的突破,现在科研人员做实验、查文献、算数据常常要耗几个月,要是AI能帮着做复杂推理、修正实验思路,说不定能把新药研发、材料突破的周期缩短一半。
有业内专家预测,再过两三年,实验室里可能会标配“AI科研助手”,专门帮人类啃最硬的科学骨头。
更值得关注的是开源底座的胜利,以前大家总觉得“闭源才是天花板”,Eigen-1用DeepSeekV3.1证明:开源模型只要配上聪明的“思考框架”,照样能打败闭源巨头。
这对整个行业是个大好事——开源意味着更多团队能参与优化,AI的进步速度会越来越快,成本也会越来越低。
不过话说回来,HLE考60分不代表AI能取代科学家了。
它现在更像个“超级学霸助手”——能帮着梳理思路、检查错误、补充知识,但最终的科研方向、实验设计还得靠人类拍板。
就像这次Eigen-1的突破,背后是耶鲁、上交大等团队的智慧结晶,AI只是把人类的想法落地得更高效。
但不可否认的是,Eigen-1的出现标志着AI从“会做题”向“会研究”迈了一大步。
从GPT-5的22.82%到Eigen-1的61.74%,这不只是数字的跳跃,更是AI思考模式的质变。
接下来最让人期待的,就是这套“聪明的思考框架”能用到更多领域:帮医生分析复杂病例、给工程师优化设计方案、为天文学家筛选宇宙信号。
毕竟,AI考高分不是目的,能用这些能力帮人类解决实际问题,才是真的厉害。
相关文章
在当代都市生活中,社交软件已成为人们拓展人际圈、寻找情感联结的重要工具,而用户始终关心的始终是“哪个软件可靠”。交友哪个软件可靠?接下来我们主要分享下...
2025-10-01 0
来源:环球网 近日,第七届“一带一路”百国印记短视频大赛颁奖仪式暨创作者大会在广州成功举办。来自中交第四航务工程局有限公司(简称“中交四航局”)的《马...
2025-10-01 0
2025年9月底,AI圈炸了个大新闻:耶鲁、上交大等多国团队联合开发的Eigen-1系统,在被称为“人类最后考试”的HLE评测中,首次把分数干到了60...
2025-10-01 1
这是熊猫贝贝的第3399篇原创文章(本文不含任何AI创作和自动生成内容)#上头条 聊热点#开篇先明确几点,以正视听。首先来说,本文本号,和这篇文章中提...
2025-10-01 0
今年的新一批旗舰机,目前仅苹果和小米发布,等待10月中下旬会有更多新机推出,比如一加15、真我GT8系列、OPPO Find X9系列、vivo X3...
2025-10-01 1
中新网太原9月30日电 (杨杰英 李梦冉 在全国首个科普月期间,科学家精神山西省科普基地积极行动,将一系列精彩纷呈的科学实验秀带入全省36个县域的10...
2025-10-01 1
新京报贝壳财经讯(记者韦英姿)9月30日,快手发布公告,决定对现有商业体系相关组织进行迭代升级,对原商业化、本地、电商团队的相关业务进行重构。本次调整...
2025-10-01 1
9月28日,贵州省大数据发展促进会人工智能专业委员会生态共建座谈会暨AI产业合作交流会在南明区智能制造产业园大数据产训基地成功举办,活动以“智汇黔行·...
2025-10-01 1
发表评论