AI假说，为何终究逊人一筹？ | 深度报道

今日快讯 2025年10月19日 13:48 0 admin

原文发表于《科技导报》2025年第17期科技新闻-深度报道

人工智能生成假说在检验中仍逊于人类

人工智能和人类比拼假说的可靠性（图片来源：Science）

2025 年 5 月，美国旧金山非营利初创机构 FutureHouse 的科研团队宣布，他们发现了一种具有治疗视力丧失潜力的候选药物。但他们却不能独揽此功，因为从文献检索、假说构建到数据分析的诸多科研环节，均由团队自主研发的人工智能（AI）完成。

从计算机科学到化学领域，AI正在全球范围内加速推动科研事业发展，部分原因在于它把一种曾被视为人类独有的创造自动化了：生成假说。如今，机器能在瞬息间完成对指数级增长的文献库的智能扫描，精准识别研究空白，揭示那些可能被科学家忽略的具有突破潜力的研究方向。

但这些AI生成的假说质量如何？一项大规模的新研究发现，当研究人员将AI生成的假说置于实际检验并交由人类评估者比对结果时，其表现仍不及人类提出的假说。但两者差距并不显著，且可能不会持续太久。

一篇 2025 年 6 月发表于 arX-iv 预印本服务器的实验论文指出，AI系统有时会过度修饰假说，夸大其潜在重要性。该研究的第一作者、斯坦福大学计算机科学博士生 Chenglei Si 表示，研究同时表明AI在评估其自主生成假说的测试可行性方面仍不及人类。

该研究既赢得了广泛赞誉，也引发了学界的审慎考量，部分原因在于原创性评判本就极具挑战。华盛顿大学数据科学家 Jevin West 指出：“创新性始终是科研评估的难点，也是同行评审中最艰巨的任务之一。”

本研究以AI自身为研究对象，聚焦支撑大语言模型（LLM）的自然语言处理（NLP）技术。研究人员利用 Anthropic 公司开发的大语言模型 Claude 3.5 Sonnet，基于对 Semantic Scholar 数据库中自然语言处理研究文献的分析，生成了数千个科研假说，并筛选出最具原创性的方案。

随后，他们聘请人类自然语言处理专家提出竞争性方案，同时组建计算机科学家团队对 2 组假说进行盲态评估，考察其创新性、可行性等指标。在 2024 年公布的预印本中，评估结果显示AI生成的假说获得了更高的平均分，这一令人意外的发现引发了广泛的媒体关注。

但在研究第 2 阶段出现了戏剧性反转。通过社交媒体推广、学术会议现场招募（在学术会议上穿着广告T恤）等多渠道招募后，团队组建了新的自然语言处理专家团队，对 24 个AI生成假说和 19 个人类构建假说进行实验验证。

这些实验通常聚焦算法优化大语言模型的某些性能（如语言翻译），并赋予实验人员优化研究设计（如选择更适配的数据集）的自主权。团队再次邀请独立评估人员对假说进行评判，结果显示：在十分制评分体系中，AI假说的平均得分从 5.382 暴跌至 3.406 ，而人类假说仅从 4.596 微降至 3.968。

人工智能正在提出那些人类希望回答的问题（图片来源：信息化观察网）

Si 表示，该结果验证了实践检验的重要性：“如果只关注理论构想，评审者可能被某些华美辞藻迷惑。但实际检视代码执行或解读时，会发现那只是对已知技术的华丽包装或新颖表述。”（2025 年 2 月，一项针对 50 个AI假说的研究也印证了这种担忧：人类评估者认为其中 1/3 涉嫌抄袭，另有 1/3 部分借鉴前人成果；仅有 2 条假说具高创新性，没有假说实现完全创新。）

非营利机构艾伦人工智能研究所首席科学家 Dan Weld 认为该研究“非常振奋人心”，但存在局限性。他指出：其一，研究仅使用单一大语言模型，基于广泛文献生成假说，而非采用多种AI工具深度挖掘权威专家的高被引研究；其二，人类并非判定创新性的理想主体，既往研究表明研究人员对同一篇计算机科学论文的评分存在显著分歧。 West 补充道，实验创新性的最佳评估方式是事后回溯，即通过多年积累的引文数据来进行判断。

Si 认为，将AI生成假说的验证流程常态化需要耗费大量时间成本。但他指出，若能让大语言模型学习历史上成功实验案例的细节，其识别创新假说的能力或将得到系统性提升。

尽管存在争议，AI与人类评分的接近程度已足以令人惊叹，这在数年前甚至难以想象。Weld 表示，即便未来AI承担大部分假说构建工作、科学家转而执行无法自动化的实验环节也不足为奇。但 West 警示道：“若果真如此，科学探索中最富趣味的环节将被剥离，科学家将沦为从事‘令人麻木’的实验室工作的工具。科学本质上是人类参与的社会活动，抽离了这个特质，科学还剩下什么？”

文 /Jeffrey Brainard

译自Science，2025，389（6763）

☟

《科技导报》创刊于1980年，中国科协学术会刊，主要刊登科学前沿和技术热点领域突破性的研究成果、权威性的科学评论、引领性的高端综述，发表促进经济社会发展、完善科技管理、优化科研环境、培育科学文化、促进科技创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、科技新闻、科技评论、专稿专题、综述、论文、政策建议、科技人文等。