今天给各位分享微信小程序的雀神麻将有挂吗的知识,其中也会对微信小程序雀神麻将怎么能赢多点进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在...
2025-11-04 2
时令 发自 凹非寺
量子位 | 公众号 QbitAI
这一次,“不会”竟成了大模型的高光时刻。
虽然在IMO第6题上得了零分,OpenAI的金牌模型却展现了“高智商的诚实”。
正如OpenAI研究员Noam Brown在最新访谈中所揭示的:
当IMO推理模型会在缺乏有效证据时表示“我不确定”,这会显著减少隐藏错误。

在AI摘下IMO金牌后,OpenAI金牌小分队成员Alex Wei、Sheryl Hsu和Noam Brown参与了红杉资本组织的一场对话,揭秘模型攻克精英数学难题的底层突破。
有网友帮忙总结了个太长不看版:
与过去那些“看起来完美,实则错误”的幻觉式答案不同,这一代大模型开始学会“承认自己不会”。
它标志着模型正在从胡编乱造的幻觉式回答,转向更加可靠且具有“自我认意识”的全新阶段。

三位成员还在这场对话中,分享了更多关于冲刺IMO的有趣细节。
尽管数学家与计算机科学家一致认可IMO金牌模型的价值。
但他们常常抱怨,当模型遇到知识盲区时,它总会输出一个令人信服但错误的答案。
他们不得不耗费大量精力逐行验算,才能甄别那些幻觉陷阱。

IMO第6题让大模型全军覆没,当然,OpenAI也对其进行了大量计算。
有一个由2025×2025个单位正方形组成的网格。Matilda希望在网格上放置一些矩形图块,这些图块的大小不同,但每个图块的每一条边都位于网格线上,并且每个单位正方形最多被一个图块覆盖。
网格的每一行和每一列都恰好有一个未被任何瓷砖覆盖的单位正方形,求出Matilda需要放置的最少瓷砖数量。

虽然投入海量算力最终仅得到一句“我无法回答”令人有些失望,但Alex Wei表示:
能看到模型避免产生幻觉是很好的。
Noam Brown也对模型的这一转变表示赞赏,“如果它不知道,它就会承认它不知道。”
这代表模型开始具备“自我意识”。
这种“自我意识”可以帮助模型在面对困难问题时,承认自己的无能为力,而不是生成一个看似合理实则错误的解决方案。
有趣的是,在Alex Wei 2024年刚加入OpenAI一周时,Noam Brown就曾问过他,团队何时能获得IMO金牌。
当时Alex Wei认为2025年不太可能实现。
但令人惊叹的是,这个三人团队仅用了两月,就完成了他们一直在追求的目标——IMO金牌。
Noam Brown还表示:
OpenAI有一个很棒的地方,就是研究人员有很大的自主权去做他们认为有影响力的研究。
Alex还强调,他们的团队“真正优先考虑通用技术”,而不是专门开发用于数学竞赛的系统。
OpenAI IMO核心团队仅由三名研究人员构成。
Alex Wei,本硕均就读于哈佛大学,随后在加州大学伯克利分校获得计算机科学博士学位。
Alex还曾在谷歌、微软和Meta实习,后于2024年1月加入OpenAI,现任研究科学家。他曾是FAIR团队成员,参与开发了首个用于外交游戏的人类级人工智能——CICERO。

Sheryl Hsu,毕业于斯坦福大学计算机科学专业,是斯坦福AI实验室中IRIS实验室的研究员,于2025年3月加入OpenAI。

Noam Brown,本科就读于美国罗格斯新泽西州立大学新布朗斯维克分校,随后在卡内基·梅隆大学获硕士和博士学位。他曾任职于DeepMind和Meta,于2023年6月加入OpenAI。
参考链接:
[1]https://x.com/chatgpt21/status/1950606890758476264
[2]https://www.youtube.com/watch?v=EEIPtofVe2Q
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
相关文章
                            
                            今天给各位分享微信小程序的雀神麻将有挂吗的知识,其中也会对微信小程序雀神麻将怎么能赢多点进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在...
2025-11-04 2
                            
                            金融界2025年8月4日消息,国家知识产权局信息显示,华为技术有限公司申请一项名为“用于配置授权的数据传输的设备、方法和系统”的专利,公开号CN120...
2025-11-04 9
                            
                            时令 发自 凹非寺量子位 | 公众号 QbitAI这一次,“不会”竟成了大模型的高光时刻。虽然在IMO第6题上得了零分,OpenAI的金牌模型却展现了...
2025-11-04 12
金融界2025年8月4日消息,国家知识产权局信息显示,四川长虹电器股份有限公司申请一项名为“一种基于用户意图识别的指向性遥控器轨迹平滑方法及指向性遥控...
2025-11-04 9
我国牵头制定,全球首项鞋类有机溶剂测定国际标准发布记者今天从国家标准委了解到,由我国牵头制定的全球首项鞋类有机溶剂测定国际标准近日正式发布。该项国际标...
2025-11-04 7
本篇文章给大家谈谈最近打牌老输钱运气差怎么办,以及打牌老输是运气不好吗对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 打麻将运气差总是输有什么...
2025-11-04 3
                            
                            软件开发人员越来越多地将人工智能工具融入到他们的工作中,但如此快速的采用并非没有带来困惑或冲突。他们和他们的经理仍在努力弄清楚这些工具何时有用,何时有...
2025-11-04 6
                            
                            #鸿蒙越用越香#> 一套系统玩转旅行、学习、带娃、追剧,中国操作系统的“全能暑假”来了夏日的热浪扑面而来,你的暑假计划是挤在景点人潮中汗流浃背,...
2025-11-04 7
发表评论