首页 今日新闻文章正文

Transformer之父对自己这项重要技术提出严厉,认为AI正陷入困境

今日新闻 2025年10月25日 23:06 0 aa
Transformer之父对自己这项重要技术提出严厉,认为AI正陷入困境

Transformer架构的共同创造者Llion Jones在近日的TED AI大会上发出惊人宣言:他已经厌倦了自己帮助创造的这项技术。这位为该架构命名的研究者,现任日本人工智能初创公司Sakana AI的首席技术官,直言不讳地表示人工智能领域正陷入创新僵局,过度专注于单一架构可能导致研究者错失下一个重大突破。

这番言论在硅谷引发强烈反响。作为二零一七年发表的开创性论文《Attention is all you need》的八位共同作者之一,Jones对Transformer的理解深度几乎无人能及。这篇论文目前已获得超过二十万次引用,被视为本世纪最具影响力的计算机科学成果之一。如今,从ChatGPT到Claude,几乎所有主流大型语言模型都建立在Transformer架构之上。但正是这位架构创始人警告说,该领域对单一技术路径的依赖已到达危险程度。

Transformer之父对自己这项重要技术提出严厉,认为AI正陷入困境

资金泛滥下的创新萎缩

Jones在旧金山的演讲中提出了一个看似矛盾的现象:尽管前所未有的资金和人才正涌入人工智能领域,但这反而导致研究变得狭隘。他指出,来自投资者的回报压力以及研究人员在过度拥挤赛道中脱颖而出的巨大压力,正在扼杀真正的创新。

这种压力在学术界和产业界都清晰可见。新加坡国立大学的研究显示,顶级人工智能会议的研究人员平均每年需要发表四点五篇论文才能保持竞争力。NeurIPS 2025年会收到接近三万篇投稿,同行评审系统已接近崩溃。在这种环境下,研究者不得不优先选择安全、可预测、易于发表的增量改进项目,而非高风险但可能带来突破的探索性研究。

Jones用"探索与利用"的经典权衡来比喻当前困境。当一个系统过度利用已知方案而探索不足时,它会陷入局部最优,错失更优越的全局解决方案。他认为人工智能行业目前正处于这种状态。研究者们竞相在Transformer架构上进行微调和排列组合,就像当年无休止地优化循环神经网络一样,却可能对即将到来的范式转变毫无察觉。

更令人担忧的是研究环境的同质化。Jones透露,如果现在从事标准人工智能研究,必须假设至少有三到四个其他团队在做几乎相同的工作。这种"撞车"现象在最近的研究中屡见不鲜。谢赛宁团队提出的表征自编码器与其他至少三篇论文几乎同时出现类似思想,智谱的Glyph与深度求索的DeepSeek-OCR在视觉文本标记化方法上不谋而合。这种竞争压力迫使研究人员仓促发表论文,从而降低了研究质量和创造性思考的空间。

Transformer之父对自己这项重要技术提出严厉,认为AI正陷入困境

Jones回忆起Transformer诞生时的环境,形成鲜明对比。他说那个项目是"非常有机的、自下而上的",源于午餐时的交谈或办公室白板上的随意涂鸦。关键在于团队有充分的自由去探索不成熟的想法,没有来自管理层的压力要求发表特定数量的论文或达到某些指标。这种自由在当今高度商业化的人工智能领域已经罕见。

Sakana AI的反叛实验

为了践行自己的理念,Jones在Sakana AI尝试重建那种宽松的研究环境。这家总部位于东京的初创公司专注于受自然启发的人工智能研究,刻意降低追逐论文发表或与竞争对手直接对抗的压力。Jones向研究人员传达的箴言来自工程师Brian Cheung:"你只应该做那些如果你不做就不会出现的研究。"

这一理念的实践案例是Sakana的"连续思维机器"项目。该系统将类脑同步机制整合到神经网络中,试图让人工智能不再"一步到位"地做决定。提出这个想法的员工告诉Jones,如果是在以前的雇主或学术职位上,他会面临质疑和压力,被认为是在浪费时间。但在Sakana,Jones给了他一周时间去探索。这个高风险项目最终被人工智能顶级会议NeurIPS 2025接收为焦点论文。

Jones甚至认为,这种研究自由比高薪更能吸引顶尖人才。他表示,有才华、聪明、有抱负的研究人员会自然而然地寻找能够进行探索性工作的环境。这一观点得到部分验证——The Information近日报道称,Sakana AI正以二十五亿美元估值筹集一亿美元资金,显示投资者对这种非主流研究路径的认可。

然而Jones的方法能否复制到更大规模仍存疑问。Sakana AI是一家小型初创公司,拥有奢侈的试错空间。但对于那些雇佣了数千名研究人员、每年投入数十亿美元的大型科技公司而言,完全放弃短期目标和发表压力是不现实的。Meta、谷歌、微软等公司的研究部门需要向股东证明投资回报,这必然导致对可量化成果的追求。

架构创新的紧迫性与困境

Jones对Transformer的批评不仅基于研究环境的观察,更源于对技术本身局限性的清醒认识。他谨慎地表示,并非要贬低正在进行的Transformer研究,在现有技术上仍有大量重要工作要做。但他认为,鉴于当前拥有的人才和资源,业界完全有能力做得更多。

这一观点与越来越多的证据相吻合。多项研究显示,简单地构建更大的Transformer模型正接近收益递减的临界点。中国发布的《二零二五年大模型架构创新研究报告》指出,Transformer的计算复杂度与序列长度呈平方关系,限制了其处理长文本的能力。自注意力机制虽然强大,但在处理超长序列时面临内存和计算瓶颈。更深层的问题是,Transformer缺乏对时间序列数据的内在理解,难以像循环网络那样自然地建模序列依赖关系。

业界正在探索的替代方案包括状态空间模型、新型循环架构和混合系统。上海人工智能实验室的周伯文指出,Transformer架构的内在局限性逐渐显现,什么样的架构能够带来根本性创新成为关键问题。但这些探索面临资源不足和关注度低的困境。绝大多数计算资源和研发投入仍集中在优化Transformer上,因为这是被验证可行且能快速产生成果的路径。

Jones强调的核心问题在于风险偏好的系统性失衡。他说:"我个人在今年年初做出了一个决定,我将大幅减少我在Transformer上花费的时间。我现在正明确地探索和寻找下一个重大突破。"这一决定的象征意义重大——如果连Transformer的创造者都认为该转向了,这是否意味着该领域也应该集体反思?

但现实是,大多数研究者没有Jones那样的声望和资源来承担失败风险。年轻研究人员需要发表论文以获得学位或职位,公司研究部门需要展示可量化的进展以证明预算合理性。在这种激励机制下,选择从事未经验证的新架构研究是职业自杀。Jones提到的多边协调——整个领域共同"调高探索旋钮"——在缺乏制度性支持的情况下难以实现。

Transformer之父对自己这项重要技术提出严厉,认为AI正陷入困境

更复杂的是技术路径的不确定性。Transformer之所以成功,部分是因为它在正确的时间出现,配合了硬件发展(GPU并行计算)和数据可用性(大规模文本语料库)。下一个突破性架构可能需要完全不同的计算范式或数据形式,而这些条件可能尚未成熟。盲目抛弃已被验证有效的技术,转向未知领域,可能导致资源浪费和时间损失。

Jones对此有清醒认识。他承认:"当前技术如此强大和灵活的事实阻止了我们去寻找更好的技术。不难理解,如果当前的技术更差,就会有更多的人去寻找更好的替代品。"这揭示了创新的悖论:成功本身成为进一步创新的障碍。Transformer工作得如此之好,以至于对其投资的边际回报虽然递减,但仍高于从零开始探索全新架构的预期回报。

Jones最终传达的信息是合作而非竞争。他呼吁研究者公开分享探索性发现,即使这意味着放弃竞争优势。他说:"坦率地说,从我的角度来看,这不是一场竞赛。我们都有相同的目标。我们都希望看到这项技术进步,以便我们所有人都能从中受益。"这种理想主义在高度商业化的人工智能领域显得格外珍贵,但能否真正影响行业动向仍有待观察。

可以确定的是,这场辩论远未结束。Transformer的成功是否预示着其长期主导地位,还是暗示着即将到来的范式转变?Jones的警告是先见之明,还是过度悲观?答案可能要到数年后才会清晰。但至少,这位架构创始人的告别宣言为业界敲响了警钟:在追逐短期收益的过程中,不要忘记那些可能改变游戏规则的长期探索。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap