中国WoW模型重构全球具身智能格局，15款机器人已适配

AI科技 2025年10月19日 04:19 0 aa

🤖 由文心大模型生成的文章摘要

文章介绍了北京人形机器人创新中心的

北京人形机器人创新中心的技术突破引发全球科技界震动——全新具身世界模型WoW正式开源，这一被Huggingface官方盛赞”Excellentwork”的架构，首次实现机器人对物理世界的深度理解，标志我国在具身智能领域跻身世界前列。

“让机器人完成后空翻不难，难的是让它理解水杯倒地会洒水。”行业专家的比喻道出核心痛点。相较于仅能”观察”的Sora系列，WoW构建了感知、预测、判断、反思与行动的完整闭环，通过融合视觉、动作与物理推理的统一框架，实现从”看见”到”理解”的本质跨越。正如技术界评价：”GPT让机器读懂语言，Sora让机器看见世界，而WoW给了机器理解物理规律的’大脑'”。

WoW的突破性源于四大核心组件的协同创新，共同构筑起机器的”物理认知体系”：

DiT世界生成基座：机器人的”物理引擎+想象系统”

基于800万条交互轨迹筛选出的200万条高质量数据，该模型训练出1.3B至14B参数的全系列版本，能精准推演物理演化规律。实测中，它可生成”机械臂依次按按钮、收餐具、开开关”的长程任务视频，甚至能跨场景完成”从梵高画作中取出向日葵”的创意操作，证明其掌握的是物理规律的抽象本质而非简单场景记忆。

SOPHIA自反范式：让模型”自己教自己”

业内首创的”生成-批评-修正”循环机制，模拟人类认知过程：动态评论模型先判断生成内容的物理合理性，优化智能体再据此改写指令、迭代生成。这种自我反思能力，使WoW在复杂场景中越练越精准，如同机器人拥有了”试错纠错”的自学能力。

FM-IDM逆动力学模型：从”想象”到”行动”的桥梁

这一核心组件解决了”落地难题”——通过连续两帧预测视频，可反推出机器人末端执行器的精确动作指令，误差不足2°。优必选WalkerX机器人借助该技术，将楼梯跌倒率降低63%；中小厂商只需上传一段”咖啡拉花”视频，就能让机械臂自动学会对应技能，数据成本锐减99%。

WoWBench基准：给”想象力”立规矩

作为全球首个具身世界模型评测标准，该基准从感知理解、预测推理等四大维度建立量化指标，通过”专家模型+GPT+人类评审”的混合机制，让机器的物理认知能力有了可衡量的科学尺度。