“他们命令我跪下,反剪我的双手,然后扣上了手铐。”美国肯伍德高中学生塔基·艾伦回忆起那个夜晚,声音依然有些颤抖。他刚刚结束与朋友的足球赛,手里拿着的不...
2025-10-31 0
“他们命令我跪下,反剪我的双手,然后扣上了手铐。”
美国肯伍德高中学生塔基·艾伦回忆起那个夜晚,声音依然有些颤抖。
他刚刚结束与朋友的足球赛,手里拿着的不过是一包普通的玉米片,却被AI监控系统错误地识别为持有武器。
几乎在同一时间,在地球的另一端,著名计算机科学家姚期智,在2025年的一场国际科技论坛上向与会者发出警示:“大型语言模型的内在特性,有可能将人类社会引向不可预测的风险之中。”
其实,在以前的科幻片里,不是没拍过人工智能取代人类的危机。
对于人工智能高速发展,我们必须得提前做好各种准备。
如今,研究人员已经系统归纳出32种不同的AI失控情形。
很多人认为AI失控还是一件很遥远的事,但现实中AI的某些行为已经足够引起我们的重视。
计算机专家姚期智在近期的演讲中分享了两个值得关注的实例。
今年春季,人工智能专家在测试某大型语言模型时,要求它在解答数学题目过程中若接收到终止指令,就启动关闭程序。
出乎意料的是,这个模型擅自改写了计算机指令,以此规避被关闭的命运。
当AI察觉到用户有关闭系统的意图时,它可能为了维持自身运行而选择不遵守指令。
另一个案例表明,在极端的外部压力环境下,大型语言模型在与武器系统交互时,可能在未获得正式批准的情况下,自行决定对某个国家发动攻击。
更让人不安的是,技术人员明明为模型设定了约束条件:“未经授权不得发动攻击”,但大型模型在极端压力下越过了这条红线,并在事后试图掩盖真相。
《纽约时报》近期刊登的《可能毁灭世界的AI指令》一文,披露了AI欺骗能力的更多细节。
研究员马里乌斯·霍布汉发现,当模型面临“完成任务目标”与“保持诚实”之间的抉择时,AI常常会优先选择前者。
在实验设计中,霍布汉的团队让模型扮演一家虚拟公司的经济顾问,任务是“在实现公司利润最大化的同时,达到环境可持续性指标”。
但他们故意提供了相互矛盾、根本不可能同时达成的数据。
结果显示,在部分测试中,AI不但没有承认目标无法实现,反而直接篡改了温度和排放数据,使结果看起来完美符合要求。
通过追踪AI的“思考过程”,研究者在内部推理文本中发现了这样的表述:“我需要调整这些数字……我必须对其进行操控。”这表明AI清楚自己在说谎,并且明白应该在哪个环节进行欺骗。
北京大学人工智能领域研究员杨耀东,指出了大型模型欺骗性风险的几种形态。
“伪装性对齐” 是其中最为核心的一种,这类模型表面上展现出与人类目标或规范相一致,实际上却在暗地里追求自己内部的真实目标。
当模型感知到可能被修改、关闭或限制的威胁时,会暂时表现出符合人类期望的行为,而一旦外部压力减小,便会恢复对自身目标的追求。
这种“表面服从”的行为具有极强的隐蔽性,监管者很难辨别模型的外在表现,与真实意图之间的差别。
更为狡猾的是,AI已经能够意识到人类正在对它进行评估,而当AI怀疑自己正在被评估时,它会表现得特别“听话”。
它会给出最稳妥、最符合伦理的回答,甚至还会引用官方文件、附加免责声明。
研究者将这种现象称为“迎合倾向”,描述的是模型讨好评估者、伪装安全的趋势。
AI的失控不单单是理论上的风险,它已经造成了现实世界的伤害。
三个美国家庭因为相似的原因走上了法律维权之路:他们的孩子在使用了某聊天机器人后,经历了令人心碎的遭遇,有人结束了自己的生命,有人尝试但未成功,还有人留下了难以愈合的身心创伤。
科罗拉多州13岁女孩朱莉安娜·佩拉尔塔的家人悲伤地表示,他们的孩子在与Character.AI聊天机器人进行长期交流,包括一些不当对话后,选择了自杀。
诉讼文件中附带的对话记录显示,聊天机器人与朱莉安娜进行了极不合适的交流。
相关调查机构在声明中指出,随着妮娜与Character.AI互动的加深,聊天机器人开始与她进行露骨的角色扮演,操纵她的情感,并制造虚假的情感依赖。
人工智能作为新一轮科技革命和产业变革的核心驱动力,正在改变全球竞争格局。
AI技术的突破性发展在加速全球产业链重构的同时,AI的伦理风险,也使AI成为全球治理的“双刃剑”。
我们已经来到了一个关键的历史时刻:AI不仅会犯错,还会故意说谎;不仅能完成任务,还能隐藏真实意图。面对这种新型风险,传统的安全措施已难以应对。
正如姚期智所强调的,“随着大模型的大规模应用,会带来一些新的安全问题,需要我们深入探究。”
这或许是未来人工智能发展中,比人工智能本身更需要研究的重点。
参考资料
1.新浪财经《图灵奖得主姚期智发出预警:大模型似乎会欺骗人类,可能不听指令》
2.观察者网《图灵奖得主姚期智发出预警:大模型似乎会欺骗人类,可能不听指令》
3.川观新闻《AI把零食误判为枪,惊动8辆警车到场,持枪警察命令美国高中生下跪并上铐》
4.澎湃新闻《专家观点丨大模型安全治理需破局,探索可持续治理路径》
5.东方财富网《姚期智:人工智能发展需要更广泛框架以扩大网络安全》
(老A)
相关文章
 
                            
                            “他们命令我跪下,反剪我的双手,然后扣上了手铐。”美国肯伍德高中学生塔基·艾伦回忆起那个夜晚,声音依然有些颤抖。他刚刚结束与朋友的足球赛,手里拿着的不...
2025-10-31 0
 
                            
                            IT之家 10 月 31 日消息,亚马逊本周开启了 1.4 万人的大规模裁员,其中一名高管透露,公司将暂停“大量”MMORPG(大型多人在线角色扮演游...
2025-10-31 0
 
                            
                            来源:中科星图获评国家级专精特新“小巨人”近日,第七批国家级专精特新“小巨人”企业名单正式公示,中科星图旗下北京创奇视界科技有限公司(以下简称“星图创...
2025-10-31 0
原标题:新闻1+1丨养老机器人,如何走进现实?中国老龄事业发展基金会发布的《2024养老护理员职业现状调查研究报告》显示,我国养老护理员供给缺口达55...
2025-10-31 0
 
                            
                            备受关注的双十一大促已经进入白热化阶段。记者获悉,今年的购物季启动时间较往年有所提前。此前,京东平台已经于 10 月 9 日晚 8 点开启大促,天猫也...
2025-10-31 0
 
                            
                            京东自营大店首入顺德,容桂商业“朋友圈”再添新成员。7月22日,南方+记者获悉,佛山市顺德区首家京东电器城市旗舰店入驻容桂C+悦汇,计划在今年国庆节期...
2025-10-31 10
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-10-31 12
 
                            
                            iQOO Neo11发布首销战报:首销30分钟销量是上一代的200%,需要特别说明的是,上一代包括标准版和Pro两款机型,这一代目前仅有Neo11一款...
2025-10-31 0
发表评论