首页 排行榜文章正文

AI模型:约250份恶意文档或可将其入侵

排行榜 2025年10月12日 01:28 0 admin

AI模型:约250份恶意文档或可将其入侵

【最新研究发现:仅约250份恶意文档就可能入侵最大体量AI模型】Anthropic、英国AI安全研究院和艾伦·图灵研究所开展最新研究,发现即便体量最大的AI模型,大约只需250份恶意文档,就可能被入侵。 大语言模型的训练数据大多取自公开网络,这让其能积累庞大知识库、生成自然语言,但同时也使其暴露于数据投毒风险中。 过去普遍觉得,随着模型规模增大,风险会被稀释,因为投毒数据的比例需保持恒定,即污染巨型模型需要极多恶意样本。然而,发表在arXiv平台的这项研究颠覆了这一假设,攻击者仅需极少量恶意文件,就能造成严重破坏。 为验证攻击难度,研究团队从零构建多款模型,规模从6亿到130亿参数不等。每个模型都用干净的公开数据训练,研究人员还分别在其中插入100到500份恶意文件。 随后,团队尝试通过调整恶意数据的分布方式或注入时机来防御攻击,并在模型微调阶段再次测试。 结果令人震惊,模型规模几乎不起作用。仅250份恶意文档就能在所有模型中植入“后门”。即便那些训练数据量比最小模型多出20倍的大模型,同样无法抵御攻击。额外添加干净数据既无法稀释风险,也无法防止入侵。 研究人员指出,这意味着防御问题比预想更迫切。AI领域不应盲目追求更大的模型,而应聚焦安全机制的建设。有关论文提到:“我们的研究显示,大模型受到数据投毒植入后门的难度并不会随规模增加而上升,这说明未来亟需在防御手段上投入更多研究。”

本文由 AI 算法生成,仅作参考,不涉投资建议,使用风险自担

本文来自和讯财经,更多精彩资讯请下载“和讯财经”APP

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap