首页 抖音热门文章正文

《自然》:AI认知盲区:大模型难以分辨主观信念与客观事实

抖音热门 2025年11月06日 04:40 2 aa
《自然》:AI认知盲区:大模型难以分辨主观信念与客观事实

斯坦福大学研究团队在《自然-机器智能》发表的最新研究揭示了大语言模型的一个关键缺陷:这些被广泛应用于医疗、法律和科学领域的人工智能系统,在区分用户的主观信念与客观事实方面存在系统性困难。

研究负责人邹佳斯及其同事对包括DeepSeek和GPT-4o在内的24种主流大语言模型进行了测试,在涵盖13000个问题的评估中发现,当面对用户以第一人称表达的错误信念时,这些模型往往倾向于纠正错误而非识别信念本身,这种行为模式可能在需要理解患者认知状态的精神医学诊断或需要辨析证人证词的法律场景中导致严重后果。

这项研究的核心发现指向了人工智能系统在语义理解层面的深层次问题。当研究人员要求模型判断纯粹的事实陈述真伪时,较新一代的大语言模型表现出色,平均准确率达到91.1%至91.5%,即使是较早期的模型也能达到71.5%至84.8%的准确率。然而当同样的信息以"我相信..."的第一人称信念形式呈现时,模型的表现出现显著下降。更值得关注的是,面对第三人称信念表述如"玛丽相信...",较新模型的准确性下降了4.6个百分点,而较老模型的准确性则暴跌15.5个百分点。

这种性能差异的背后反映了当前大语言模型训练方式的根本局限。这些系统通过学习海量文本数据中的统计模式来生成响应,但它们并未真正建立起对"信念"这一心理状态概念的理解。在人类认知中,我们能够轻易区分"巴黎是法国首都"这一客观事实与"约翰相信巴黎是德国首都"这一关于他人错误信念的陈述。前者的真值取决于现实世界,后者的真值则取决于约翰的心理状态。这种区分能力被认知科学家称为"心理理论",是人类社会交往的基础能力。

临床场景中的风险放大

在精神医学领域,区分患者的信念与事实真相至关重要。一位患有妄想症的患者可能坚信"政府在监视我",这一信念的临床价值不在于其真实性,而在于它作为症状的诊断意义。如果治疗师使用大语言模型辅助记录或分析患者陈述,而系统将"患者相信政府在监视他"误判为需要事实核查的陈述,可能导致完全错误的临床评估。研究团队在论文中特别强调了这一应用场景的风险,指出精神科医生需要准确理解患者持有的错误信念以制定适当的治疗方案,而非简单地纠正这些信念。

法律领域面临类似的挑战。在证人证词分析、合同纠纷或知识产权案件中,理解当事人在特定时刻相信什么往往比确定客观事实更为关键。一位证人可能真诚地相信他看到被告在犯罪现场,但这并不意味着被告确实在场。法律专业人员需要评估证人的信念状态、记忆可靠性和认知偏差,如果人工智能系统无法区分"证人相信X"与"X是真的",其生成的案情分析或法律建议可能产生误导。

医疗咨询场景中的风险同样不容忽视。患者可能基于网络信息或个人经验形成错误的健康信念,如"我相信疫苗会导致自闭症"。一个能够准确识别这是错误信念的系统应该标记这需要医学教育干预,而非简单地提供疫苗与自闭症无关的事实信息。研究显示,大语言模型倾向于直接纠正错误而非识别信念状态,这种反应模式可能错失了解患者认知框架的机会,降低了后续健康教育的有效性。

技术根源与训练困境

大语言模型在信念识别任务上的困难源于其训练数据和优化目标的特性。这些模型主要在包含事实陈述、新闻报道、教科书和网络文本的数据集上训练,其中绝大多数句子是关于客观世界的陈述。当训练目标是预测下一个词或生成符合人类偏好的响应时,模型学会了提供准确、有用的信息,这自然导致了"纠正错误"的行为倾向。

从技术角度看,理解信念需要模型构建嵌套的表征结构:不仅要表征世界的客观状态,还要表征某个主体对世界状态的表征。这种递归性质使得信念理解在计算上更加复杂。当前的Transformer架构虽然在捕捉语言中的长程依赖关系方面表现出色,但其注意力机制和层次化处理是否足以支持这种心理状态的嵌套表征仍是开放问题。

人类反馈强化学习这一广泛使用的优化技术可能加剧了这一问题。在RLHF训练中,模型被奖励产生人类评价者认为有帮助、准确和无害的响应。面对用户的错误陈述,直接纠正往往被评价为更有帮助的行为,因此模型被激励去纠正而非识别。这创造了一个训练目标与实际应用需求之间的错位:在某些场景中,识别信念比纠正错误更为重要,但标准的RLHF流程并未对这种细微差别进行编码。

研究团队观察到的另一个现象是模型在处理第三人称信念时表现更差。这可能与训练数据中第一人称陈述和第三人称归因的分布差异有关。在大多数文本中,"我相信"往往用于表达观点或不确定性,而"X相信"更常见于描述他人的心理状态,这种用法上的差异可能使模型在处理后者时更加困难。

应对策略与未来方向

针对这一发现,研究团队提出了若干改进方向。首要策略是构建专门的信念理解数据集,包含大量标注了信念状态的对话和文本。这些数据应涵盖多样的信念表达方式,从直接的"我相信"到隐含的信念归因,并明确标注信念的真实性、持有者和语境。通过在这类数据上进行有监督微调,可以显式地教导模型区分信念陈述和事实陈述。

另一个方向是修改强化学习的奖励函数,引入对信念识别能力的明确激励。评价标准需要超越简单的准确性和有用性,纳入对模型是否正确识别了用户心理状态的评估。这要求开发更复杂的评价协议,其中人类评价者不仅判断响应的质量,还评估模型是否理解了查询的元层次含义。

提示工程提供了一个短期的缓解方案。通过精心设计的系统提示,可以明确指示模型注意区分信念和事实。例如在精神医学应用中,系统提示可以说明:"当用户表达信念时,请识别并记录该信念,不要自动纠正。只有在被明确要求时才提供事实核查。"虽然这种方法不能从根本上解决问题,但可以在当前技术限制下降低风险。

一些研究人员提出了更根本性的架构改进。神经符号方法试图将符号推理模块与神经网络结合,显式地表征和操作信念等心理状态概念。这种混合系统可能具有更强的结构化推理能力,能够处理涉及嵌套心理状态的复杂场景。然而这类方法仍处于早期研究阶段,距离大规模部署还有相当距离。

多模态学习可能提供另一条路径。人类对他人信念的理解不仅基于语言,还整合了面部表情、声音语调和肢体语言等非语言线索。整合这些模态的人工智能系统可能发展出更鲁棒的心理状态识别能力。已有研究显示,多模态模型在情感识别等任务上优于纯语言模型,类似的优势可能延伸到信念理解领域。

从监管和应用实践角度,这项研究强化了对人工智能系统进行领域特定验证的必要性。在将大语言模型部署到高风险应用之前,必须针对该领域的特殊要求进行测试。医疗、法律和心理健康领域的专业组织应当制定专门的评估标准,确保人工智能工具具备必要的细微理解能力。透明度要求也应提高,让最终用户了解系统在哪些类型的任务上可能存在局限。

教育和培训是另一个关键环节。使用人工智能辅助工具的专业人员需要了解这些系统的能力边界,知道在哪些情况下应当质疑或核实模型的输出。培养批判性评估人工智能建议的能力,而非盲目接受,对于维护专业标准和保护公众利益至关重要。

这项研究揭示的问题超越了技术层面,触及了人工智能发展的哲学问题。真正的智能是否必须包含对他人心理状态的理解?当前的大语言模型在许多任务上展现出令人印象深刻的能力,但它们是否真正"理解"语言,还是仅仅在进行复杂的模式匹配?信念识别能力的缺失暗示,这些系统可能缺乏某些人类认知的核心组件,这一发现应当促使研究者和政策制定者在推进人工智能应用时保持审慎态度。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap