非Transformer架构落地之王，携离线智能&原生记忆在WAIC浮出水面

十大品牌 2025年07月26日 16:11 0 admin

衡宇昕祎发自凹非寺

量子位 | 公众号 QbitAI

刚刚，就在WAIC现场的一个展台，我亲眼看到一只机器狗，在完全离线断网的情况下，学会了一个新动作。

是一位中年男性观众现场教的。让它先转个圈，再立起来做了个经典的小狗拜拜。

教完过后没两分钟，狗子自己就原模原样复现出来了——

没有预定程序，没人遥控操纵，狗子全程离线。

一扭头，这展台还摆着几只灵巧手，一会儿在愉快地玩黄金矿工，一会儿又玩推箱子推得正起劲。

听展台工作人员说，玩儿得这么溜的灵巧手，也是纯离线，全靠它本地部署模型的视觉能力，看得懂画面，也玩得转策略。

其实灵巧手、机器狗、机器人等是本届WAIC不少展位吸引目光的招牌产品。

之所以想和大家分享刚刚的所见所闻，一方面是因为在真·离线的状态下，这俩端侧设备表现得实在是不错；另一方面，是因为部署在它们身上的模型，是非Transformer架构的大模型。

展台负责介绍的小姐妹告诉我们，背后是设备原生智能：能离线跑、会多模态，还能边用边学。

这套体系的幕后推手，是一家成立刚满两年的公司——RockAI。

早在ChatGPT名动全球之前的2022年初，这家公司就开始全心押注非Transformer架构大模型，从最底层重构AI模型的运行逻辑。

今年WAIC期间，RockAI创始人刘凡平公开表示：

目前AI的发展需要推翻两座大山，一个是反向传播，一个是Transformer。

当大模型具备“原生记忆”能力

在RockAI展台上自学新动作的机器狗、会玩游戏的灵巧手，都运行着RockAI最新推出的Yan 2.0 Preview大模型。

这个版本，相比初代Yan 1.0的语言能力、Yan 1.3的多模态理解能力，最大的突破在于它开始具备“记忆”了——引入了原生记忆模块。

这里的“记忆”，不是对某个长度上下文的窗口限制，而是Yan 2.0 Preview具备了边用边学、可持续进化的能力。

现在大家用大模型，都会遇到这样一种情况：提的问题超出了Chatbot的训练数据覆盖范围，得到一句“很抱歉，我的知识截至于2024年x月，无法提供相关信息”，要么就是得到一顿瞎编的结果，令人头秃。

这是传统大模型“先训练→再部署→使用过程不能更新”导致的。

所以，现在联网搜索功能几乎成了Chatbot们的标配。

但相比于原生记忆，联网搜索、外挂记忆库、拓展长上下文等解决方案其实没有解决根本问题。

在这个问题上，Yan 2.0 Preview引入了一种训推同步的新机制。

训推同步意味着模型不再是一个冻结的产品，而是一个持续进化的智能体。每一次与环境的交互，每一个新的任务场景，都能成为模型自主学习、进化的养分。

要展开说这种持续学习能力的实现，就不得不提到RockAI对Yan 2.0 Preview的记忆模块设计。

其前向过程可分为记忆更新与记忆检索两个阶段。

首先来看记忆更新阶段。

这一阶段，模型会判断哪些旧知识可以被遗忘，然后再从当前任务中提取出有价值的信息，写入记忆模块。

这个过程不靠外挂、不靠缓存，而是由一个专门的神经网络来模拟记忆行为来实现动态擦除与增量写入，以此实现在保留重要历史信息的同时，灵活整合新知识。

其次是记忆检索阶段。

Yan 2.0 Preview设计了记忆稀疏机制，模型会从多个记忆槽中选出Top-K激活记忆，与长期共享记忆融合，生成新的输出。

这使得模型不只是有记性，更能“带着记性去推理”。

这些机制组合在一起，让Yan 2.0 Preview完成了对记忆网络有效性的初步验证，模型不再是静态的大脑，而开始变成一个能生长的智能体。

用RockAI的话来说，这是迈向基于训推同步的自主学习的一大步。

虽然完全实现基于训推同步的自主学习在现在看来还是不可能之事，但这背后其实有一个非常现实主义的出发点。

早在2022年，RockAI创业之初就彻底放弃了Transformer架构，走一条完全不同的AI底层路径。

原因很简单——

RockAI专注为端侧服务，而Transformer架构模型虽然在语言处理任务上表现出色，但它们消耗大量计算资源和内存，推理也异常吃算力。

尤其是对于长序列输入，Transformer的自注意力机制存在二次复杂度的计算和内存需求，在诸如端侧部署等场景中是天然的bug。

对于手机、机器人、IoT设备这些典型端侧环境，资源敏感是一种常态，不是一种例外。

彼时的RockAI就做出判断：

AI要成为真正的基础设施，就必须与具体设备深度融合，只有当AI能够在每一个终端设备上高效运行之时，它才能真正渗透到人类生活的每一个角落。

在这样的思路下，Yan架构诞生了，并逐渐迭代出1.0、1.3版本，直到今天来到Yan 2.0 Preview版本。

需要强调的是，Yan 2.0 Preview不是一个完整的产品版本，它的意义更多是RockAI进行的一次重要技术预演。

这次他们想验证的，不是模型能不能答题、会不会生成图文，而是一个更本质的问题：

AI模型，能不能像人一样，边用边学、越用越聪明？

这个问题的重要性远超技术本身。

如果答案是肯定的，我们对AI的理解就该改一改，它不再是工具，而是能主动成长的智能伙伴。

基于训推同步的自主学习机制，将有效信息隐式地存储到多层神经网络的权重中，这比显性的上下文工程更加优雅，也更接近人类大脑的工作原理。

所以，展台上玩游戏的灵巧手和自主学习的机器狗，不能当个逛展的乐子看，更深层次的，这能被视作是一种可能性的预告，AI或许能进入一个全新的进化阶段。

“离线智能”让模型直接在设备上出生和成长

最终通向AGI的路径还在探索中，但方向是确定的：算法更简单、算力依赖更低、数据需求更少。

RockAI表示，要让AI真正进入这样的进化阶段，光靠外部功能拼装是不够，必须从底层架构动刀，解决那些阻碍AI落地生长的系统性问题。

“Transformer架构的模型，从一开始就注定不适合在端侧设备上跑。”RockAI的CTO杨华如是说。

是不是有那么一丝丝“暴论”的味道？（doge）

但其实这句话绝不是没有道理的歪理邪说——

ChatGPT一鸣惊人后，Transformer架构的模型席卷行业，越攀越高，在国内外无数次被证明有效。

但众所周知，受限于Transformer架构本身的底层计算设计，在不少场景下，它会显得比较笨拙。

譬如在推理模型风头正盛的现在，Transformer模型一旦进入推理阶段，模型的复杂度就会伴随输入序列长度疯狂增长。每多处理一个token，就要额外计算整段上下文的注意力关系。

换句话说，就算你把大模型压得再小，只要它还是Transformer架构，上下文长度变长、任务复杂度提升，推理速度就会明显受限，功耗也直线向上狂飙。

如此一来，在手机、机器人、IoT终端这类算力有限的设备，Transformer架构模型就不占优势了。

针对这个窘境，目前业内的主要做法，要不是端云协同，要不就是给云端模型“瘦身”，尽可能压缩压缩再压缩，再挤进端侧设备里。

总而言之，现行主流方法的本质，仍然是在用云端的思路，来服务端侧的现实。

但RockAI不一样。

这家公司的办法不是让模型适配设备，而是让模型直接在设备上出生和成长。

前面提到的Yan架构，就专为端侧而生，RockAI表示，它的目标是让模型变成设备的一部分——RockAI称之为“离线智能”。

所谓离线智能，不是简单的“断网运行”，而是模型在本地就能完成理解、推理、甚至学习的全流程闭环系统。

其核心特征有三：

全程本地运行：推理过程不依赖云端算力，模型部署在设备上，离线状态可用。
多模态理解：能处理语音、图像、视频等复杂输入，具备较强的本地感知与交互能力。目前，Yan 2.0 Preview能在树莓派上以5 tokens/s的速度多模态问答。
边用边学的可成长性：具备训推同步能力，用户交互中的新信息可被写入本地模型记忆，实现逐步成长。

这么一剖析，就能发现离线智能的与众不同之处——

传统AI是联网找大脑，端云协同是遇到不会的去问云端，离线智能是只靠自己本身具备的脑子边理解边学习边应对。