首页 抖音热门文章正文

AI数方块都翻车!华中科大靠中学几何题,破了大模型空间死穴

抖音热门 2025年10月19日 14:19 0 admin
AI数方块都翻车!华中科大靠中学几何题,破了大模型空间死穴

你可能刷到过AI写论文、编代码的惊艳视频,但很少有人告诉你,那些号称“通才”的大模型,其实连小学生都会的题都能做错。

去年有个测试特别扎眼:让GPT-5-Thinking和Gemini2.5Pro这两款顶尖模型数方块,图里明明是10块白色、13块橙色方块,结果俩模型算出来的数没一个对的。

AI数方块都翻车!华中科大靠中学几何题,破了大模型空间死穴

让 GPT5-Thinking 和 Gemini 2.5 Pro 数方块(正确答案是白色 10 块,橙色 13 块)

更让人意外的是,这种低级错误不是个例——李飞飞团队搞的VSIBench评估基准里,超过70%的模型错误,都不是因为“看不清楚”或“读不懂题”,而是压根儿没搞懂空间关系。

这事儿听起来有点反常识:能聊相对论的AI,怎么连“哪个物体在左边”都搞不清?其实这背后藏着个经典的“莫拉维克悖论”——机器搞定高阶推理容易,反而学不会人类与生俱来的感知技能。

就像你不用想就能接住抛来的球,但让AI算清球的运动轨迹得写上万行代码。如今的多模态大模型,正好卡在了这个悖论的死穴上。

越练越偏科的AI“特长生”

为了补空间智能的短板,学界不是没下过功夫。之前像Spatial-MLLM、SpaceVLM这些研究,都在走“专项训练”的路子:找一堆数方块、认方位的题目做成数据集,让模型反复刷题。

可练来练去,问题反而更突出了。这些专门的数据集就像“偏科习题册”,比如有的只练室内物体定位,有的专攻二维图形识别,覆盖的场景连现实世界的零头都不到。

模型在这些数据集上确实能刷出高分,但换个没练过的任务——比如从不同角度数同一个多面体的棱 ,立刻就露怯。

这就是行业里说的“过度特化”:模型变成了只会做特定题目的“特长生”,却没真正学会举一反三的空间思维。

就像有人背熟了一百道几何题答案,换个问法还是不会做,本质上没搞懂公理定理。要解决这个问题,得换个思路——不能再盯着零散的任务刷题,得从根上补空间知识。

从中学几何题里找答案

今年年初,华中科技大学、北京中关村学院和华东师范大学的团队,在论文《Euclid’sGift》里抛出了个让人眼前一亮的想法:别再搞专项训练了,让AI学几何吧。

AI数方块都翻车!华中科大靠中学几何题,破了大模型空间死穴

这个思路乍看有点“复古”,细想却全是门道。几何这东西,说白了就是人类用几千年总结的“空间说明书”。从三角形内角和到球体体积公式,每一条公理、每一个定理都是对空间规律的精炼概括。

让模型学几何,不是让它当解题机器,而是逼着它把这些普适性的空间原理“刻”进脑子里。

更关键的是,解几何题需要的能力,和现实中的空间任务刚好对上了。你想啊,做一道立体几何题,得先看清图形里的棱、面、角(识别形状构型),再判断哪两条棱平行、哪个面和底面垂直(推断空间关系)。

最后一步步算体积、证全等(多步逻辑推理)。这些能力,恰恰是数方块、认方位、判断物体相对位置所必需的。

教育心理学早就证实,人类学几何能直接提升空间智力,现在这个团队发现,这规律对AI同样管用。

就像给学画画的人补透视原理,不是让他画透视图交作业,而是让他不管画什么都懂空间关系。这个逻辑一打通,之前的“偏科问题”就有了破解方向。

砸出来的数据集

想法再好,没有高质量的题也练不出来。团队调研时发现,市面上的几何数据集要么规模小,要么质量差,最要命的是“重平面、轻立体”——立体几何题连平面几何的零头都不到。

可立体几何里的视角变化、多面体截断、体积与面积关系,恰恰是AI最缺的3D空间认知训练。

没办法,团队只能自己动手做数据集。他们翻遍了开源数据库里的几何题,又找来K12阶段的数学教材、练习册,从里面筛选题目,最后凑出了近3万道题,起名叫“Euclid30K”(实际29695道)。

为了保证质量,他们还搞了套“双AI清洗”流程:先用GPT-4o和DeepSeek-V3.1这两个大模型分别核对答案,再把结果交叉比对,最后统一格式让MathVerify工具验证。

AI数方块都翻车!华中科大靠中学几何题,破了大模型空间死穴

这么折腾下来,每个题目的答案都准确规范,不会出现“表述模糊导致模型学错”的问题。

值得一提的是,团队特意加重了立体几何的比例。毕竟AI在3D空间任务上栽跟头最多,而立体几何里的“从正面看有几个正方形、从侧面看有几个”这类问题,刚好能针对性训练视角不变性认知——这正是GPT-5-Thinking数方块出错的核心原因。

不搞花活,只练几何真能变强?

为了证明不是“算法作弊”,团队的训练方法搞得特别“朴素”:只用常规的GRPO算法,参考DAPO的设置把CLIP裁剪上界定在0.28,再加上Token-level策略梯度损失和动态采样,没加任何花里胡哨的技巧。

AI数方块都翻车!华中科大靠中学几何题,破了大模型空间死穴

结果一出来,连研究人员都有点意外:练过几何的模型,在四个完全没接触过的空间基准测试里全涨分了。

VSIBench(空间推理)、SuperCLEVR(视觉问答)、Omni3DBench(3D场景理解)、MindCube(立方体推理),不管是2D还是3D任务,准确率都比没练几何的版本高一截。

这说明模型真的把几何里的空间原理迁移到了新任务上,不是死记硬背的“刷题机器”。

最有说服力的是那个“因果消融实验”。团队专门从非几何的Clevr-CoGenT数据集里,挑了个和Euclid30K一样大的样本,用完全相同的方法训练模型。

结果很明显:练几何的模型准确率,比练同等规模非几何数据的模型高不少。

AI数方块都翻车!华中科大靠中学几何题,破了大模型空间死穴

这就彻底排除了“数据量堆出来的效果”这种质疑——不是练得多就厉害,关键是练的东西得“有用”。几何题作为“代理任务”的价值,在这个实验里被实打实地证明了。

AI的“基础教育”比“专项训练”更重要

这篇论文里藏着个很有意思的启示:现在大家总想着给AI喂更多数据、堆更大参数量,却忘了像人类教育一样,“打基础”可能比“刷难题”更管用。

Euclid30K里的题目,本质上就是AI的“空间基础教育课本”。那些我们中学时学的几何公理,看似简单,却是解开无数空间问题的钥匙。

就像微软最新的Magma模型,之所以能操控机器人、理解网页UI,核心也是掌握了通用的空间与时间智能,而不是背熟了操作步骤。

未来的AI要走进现实——不管是帮医生做3D影像分析,还是让机器人在家做家务,都离不开扎实的空间智能。

AI数方块都翻车!华中科大靠中学几何题,破了大模型空间死穴


华中科大这个团队的尝试,相当于给AI指出了一条“返校补基础”的路。

或许用不了多久,当我们再让AI数方块时,它不会再算错;让它找“桌子左边最近的杯子”时,也不会再指错方向。而这一切的起点,可能就是那本我们曾经头疼过的几何课本。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap