首页 排行榜文章正文

卡内基梅隆大学研究:揭示大语言模型深层隐私风险

排行榜 2025年11月05日 04:08 2 admin

卡内基梅隆大学研究:揭示大语言模型深层隐私风险

这项由卡内基梅隆大学的Niloofar Mireshghallah教授和东北大学的Tianshi Li教授联合开展的重要研究发表于2025年10月,论文编号为arXiv:2510.01645v1。研究团队通过对1322篇过去十年间发表的AI隐私相关论文进行系统分析,揭示了一个令人震惊的发现:当前学术界对大语言模型隐私威胁的关注存在严重偏差,92%的研究都集中在"模型是否会泄露训练数据"这一单一问题上,而真正威胁用户隐私的其他四大类风险却几乎被忽视。

为了更好地理解这个问题,我们可以把大语言模型的隐私风险比作一座冰山。目前绝大多数研究者都在关注海面上那小小一角——也就是模型会不会把训练时见过的文字原封不动地吐出来。但实际上,海面下还隐藏着巨大的威胁:聊天记录被偷偷收集和泄露、AI助手在你不知情的情况下把你的私人信息告诉别人、系统通过蛛丝马迹推断出你的敏感信息,以及利用AI搜索功能把你散落在网上的个人信息拼凑成完整档案。

研究团队发现,尽管训练数据泄露问题确实存在,但在实际使用中,它造成的隐私风险远小于其他四类威胁。然而,学术界却将几乎所有注意力都集中在这个相对较小的问题上,这就像消防队把全部精力都用来扑灭小火苗,却对真正的大火视而不见。更令人担忧的是,随着AI助手越来越智能、功能越来越强大,这些被忽视的隐私威胁正在急剧增长。

一、训练数据泄露:被过度放大的威胁

当我们谈论大语言模型的隐私风险时,大多数人首先想到的就是"模型会不会把训练时看过的个人信息原样输出"。这确实是一个真实存在的问题,就像图书管理员可能会无意中复述某本书的内容一样。但研究团队通过深入分析发现,这个问题的严重程度被大大夸大了。

要理解为什么训练数据泄露风险被高估,我们需要了解现代大语言模型的训练过程。这些模型就像海绵一样,需要吸收大量的文字信息才能学会理解和生成语言。训练过程中,模型会接触到来自互联网的海量文本,包括新闻报道、学术论文、社交媒体帖子等等。在这个过程中,确实可能包含一些个人信息。

然而,模型"记住"这些信息的能力远比我们想象的要弱。研究显示,只有那些在训练数据中重复出现四次以上的文本,模型才有可能逐字逐句地记住。而且,即使是这样的文本,模型也只有在特定条件下才会原样输出。这就像一个人读了一万本书后,只能模糊地记住其中反复出现的句子一样。

更重要的是,现代大语言模型的训练方式大大降低了记忆风险。训练过程使用了巨大的数据批次、很少的重复训练轮次,以及高度多样化的数据集,这些因素都会稀释潜在的记忆效应。此外,模型在训练早期缺乏足够的语言能力来有效记忆,而在训练后期,提高的语言理解能力实际上会减少逐字记忆,因为模型学会了更有效的泛化表示方式。

不过,研究团队也指出了一个重要例外:微调阶段的记忆风险确实值得关注。如果把预训练比作给学生提供基础教育,那么微调就像是专业培训。在微调过程中,模型接触的数据量相对较小,训练轮次较多,这确实会增加记忆特定信息的可能性。特别是当微调数据包含用户提供的私人信息时,风险会显著增加。

除了传统的文本记忆,研究还发现了一些新型的泄露风险。比如语义泄露,指的是模型可能泄露概念性而非字面信息;跨语言泄露,即信息从一种语言泄露到另一种语言;以及跨模态泄露,涉及不同形式媒体之间的数据泄露。但即便考虑到这些新型风险,训练数据泄露仍然不是最紧迫的隐私威胁。

二、聊天记录泄露:被忽视的巨大风险

相比于训练数据泄露,用户在日常使用中产生的聊天记录泄露风险要大得多,但这个问题却没有得到应有的关注。当你和ChatGPT、Claude或其他AI助手对话时,你的每一句话、每一个问题、每一次互动都被完整地记录下来。这些聊天记录包含的个人信息比任何训练数据都要丰富和敏感。

研究团队发现,用户在与AI助手的对话中会分享极其私密的信息。有人会详细描述自己的心理健康问题,有人会透露财务状况,还有人会讨论人际关系困扰。一项针对真实对话的分析显示,GPT-4和ChatGPT在39%和57%的情况下会不当地透露这些私人信息。这就像你把最私密的日记交给了一个不太可靠的朋友保管。

更令人担忧的是,各大AI服务提供商的数据收集政策正在朝着对用户更不利的方向发展。以Anthropic公司为例,该公司最初采用了相对严格的隐私保护政策,声称除非用户明确报告,否则不会使用用户的输入和输出来训练模型。但在2025年9月,该公司突然改变政策,要求用户必须在特定日期前主动退出,否则他们的对话和编程会话将被用于训练AI模型,数据保留期也从30天延长到5年。

OpenAI的政策同样令人担忧。免费用户的数据默认被用于训练,除非主动退出。即使是付费用户,他们的数据使用政策也与免费用户相同,只有企业客户才能获得自动的隐私保护。Google Gemini采取了最激进的数据收集方式,对18岁以上用户默认开启"Gemini Apps Activity",自动收集聊天内容、共享文件、图片、屏幕截图、相关产品使用信息、用户反馈以及位置信息。

最令人防不胜防的是所谓的"隐性同意"机制。所有主要服务提供商都利用反馈机制来绕过隐私保护。当你给AI的回答点赞或点踩时,整个对话就会被标记为"用户主动提供的反馈",从而获得长达10年的数据保留权限,即使你之前已经选择退出数据收集。这就像你本来已经拒绝了问卷调查,但因为对某个问题点了个头,就被认为同意了整个调查。

除了政策层面的问题,技术层面的安全风险也在增加。中心化的数据存储创造了前所未有的攻击面。2025年1月,研究人员发现DeepSeek公司的一个公开数据库允许完全控制数据库操作,暴露了超过一百万行包含聊天历史、密钥、后端详细信息的日志流。Meta AI聊天机器人的安全漏洞允许用户访问其他用户的私人提示和AI生成的回应。OmniGPT的数据泄露事件影响了3400多万用户消息和3万多个账户。

更严重的是,法律程序可以完全覆盖用户的隐私设置。《纽约时报》起诉OpenAI的案件导致法院下令要求无限期保留数百万ChatGPT用户的聊天历史,这些用户甚至不是案件当事人。类似的法院命令可能影响任何服务提供商,国家安全信函和执法请求还会创造额外的数据保留要求,而用户永远不会知道这些情况。

三、AI助手的"背叛":上下文泄露的新威胁

随着AI助手变得越来越强大,它们开始具备自主执行任务的能力。但这种进步也带来了全新的隐私风险:AI助手可能在你不知情的情况下,把你的私人信息泄露给其他人或系统。这就像雇佣了一个非常能干但不够谨慎的助理,他在帮你处理事务时可能无意中向外人透露你的秘密。

这种威胁主要来自两个方面:RAG系统的风险和AI记忆功能的隐患。RAG(检索增强生成)系统就像给AI助手配备了一个巨大的图书馆,让它能够实时查找和引用外部信息。现代LLM系统的上下文窗口正在爆炸式增长——GPT-4.1在2025年1月达到了100万个token,比GPT-4最初的8192个token增长了125倍,而Google的Gemini 1.5 Pro可以处理多达200万个token。

问题在于,这些系统在检索信息时可能会无意中访问敏感数据,然后在回答其他用户问题时泄露这些信息。研究人员已经证明,通过提示注入攻击和数据投毒等方式,恶意用户可以欺骗RAG系统泄露私人数据。更危险的是,检索到的数据可能通过集成工具进一步泄露,比如自动发送包含敏感信息的电子邮件。

AI的记忆功能带来了另一种隐私风险。许多AI助手现在都提供记忆功能来个性化响应生成,包括ChatGPT、Gemini、Microsoft Copilot和Grok等。虽然这种功能能够提供更好的用户体验,但也创造了新的隐私威胁。首先,用户往往无法记住自己曾经输入的所有信息,导致有些人感觉"ChatGPT比我更了解我自己"。其次,生成过程可能无法完全理解上下文来确定个性化是否合适,各种输出渠道(复制粘贴、网络搜索、语音模式)都会增加意外数据泄露的风险。

最近发生的Supabase MCP泄露事件完美地说明了这种风险。恶意用户通过提示注入欺骗连接到Supabase MCP且具有服务角色权限的LLM代理(如Cursor)读取私人数据,并将这些信息写回到工单中,从而暴露了整个SQL数据库。这就像有人冒充你的助理,骗取了公司数据库的访问权限,然后把机密信息发布在公告板上。

更深层的问题是,当前的AI系统缺乏适当的隐私判断能力。它们无法可靠地做出适合上下文的隐私相关决策。隐私的适当性往往取决于具体情境,需要考虑数据发送者、主体、接收者、类型和传输原则等多个参数。但LLM在这方面的能力仍然非常有限,这使得它们难以在开放环境中可靠地保护用户隐私。

当前的AI助手系统还存在一个根本性矛盾:它们依赖用户作为最后的防线,期望用户仔细监控助手的行为以防止隐私损害,同时还要主动删除助手通过工具使用暴露的外部数据。然而,研究表明,人类监督在识别和预防隐私损害方面往往是无效的。这创造了一个悖论:用户需要感到他们对助手的行为拥有最终权威来建立信任,但人类监督在防止隐私损害方面被证明基本无效。

四、无声的窥探:间接属性推断的威胁

除了直接的数据泄露,AI系统还可能像侦探一样,从你提供的看似无害的信息中推断出敏感的个人属性。这种能力本来是AI智能化的体现,但同时也创造了新的隐私威胁。就像福尔摩斯能从一个人的穿着打扮推断出他的职业和生活状况一样,现代AI系统能够从普通对话中推断出你的位置、年龄、种族、健康状况等敏感信息。

这种威胁最直观的例子出现在2025年4月的一个病毒式社交媒体趋势中。用户将看似无害的照片——比如昏暗的酒吧或随机的街角——上传到ChatGPT,而该模型竟然能够快速且准确地识别出具体位置。参与者在黑客新闻讨论中将这种能力描述为"超现实、反乌托邦但又很有趣",其中一位评论者说:"任何人都能使用,超人类水平的演绎推理能力,能从无害照片中的微小细节中找出你的位置?这确实可能是反乌托邦的。"

这种推断能力的危险性在于它的隐蔽性和易用性。与需要技术专长的传统攻击不同,这些推断攻击已经民主化,使得几乎没有技术背景的个人也能执行它们,并在日常生活中造成更广泛的风险。任何人都可以上传一张照片,询问AI"这是在哪里拍的",或者提供一段文字,让AI分析作者的个人特征。

研究团队的分析显示,这类间接属性推断风险在学术研究中被严重忽视,仅占所有AI隐私研究的5.8%。更令人担忧的是,这些有限的研究中大部分还关注的是大语言模型出现之前的问题版本,比如从文本嵌入中推断敏感属性,这在影响范围和所需缓解方法方面都有很大不同。

这种推断能力的提升与大语言模型的发展密切相关。在2024年之前,这类研究主要关注学习隐私保护的神经表示——比如防止从文本嵌入中推断敏感属性。但自2024年以来,大语言模型的兴起显著扩展了攻击面。预训练的LLM具有强大的能力,可以直接从文本中推断个人属性。这种转变带来了严重担忧:此类攻击已经民主化,使得技术专长有限的个人也能执行,并且由于文本在日常生活中远比专门的神经表示更普遍,因此构成了更广泛的风险。

想象一下这样的场景:你在社交媒体上分享了一张在咖啡店的自拍,或者在论坛上发布了一条关于天气的随意评论。看起来完全无害,对吧?但AI系统可能从照片背景的装修风格、咖啡店的标识、甚至你的穿着打扮中推断出你的大概位置、经济状况,甚至生活习惯。从你的文字风格、用词选择、讨论的话题中,AI可能推断出你的年龄段、教育水平、政治倾向等等。

这种推断能力不仅限于文本和图像。随着多模态AI系统的发展,语音、视频等各种形式的信息都可能被用来推断敏感属性。而且,这些推断往往是在用户完全不知情的情况下进行的,没有明确的同意过程,也没有告知用户哪些信息被推断出来。

五、数字拼图的威力:直接属性聚合的风险

在所有隐私威胁中,最容易被忽视但可能最危险的是AI系统的信息聚合能力。这就像把散落各处的拼图块拼成完整图案一样,AI可以将你在网络上留下的零散信息片段组合起来,构建出关于你的详细档案。而这种能力正在被武器化,用于网络跟踪、身份盗用和精准诈骗。

这种威胁的典型例子是ChatGPT的"深度研究"功能。这个功能可以大幅降低聚合、综合和分析大量在线信息的门槛。虽然这为合法用途提供了便利,但同时也让非技术用户获得了前所未有的挖掘敏感细节的能力,从而实现网络跟踪、人肉搜索和冒充等恶意行为。

研究团队提供了一个真实案例:AI系统能够从HTML标签中的评论里找到某个人宠物猫的名字。这听起来可能微不足道,但宠物的名字经常被用作安全问题的答案,因此这种看似无害的信息实际上可以用来盗取账户、进行定向诈骗,造成情感伤害和歧视。这种威胁超越了隐私范畴,延伸到了安全领域,因为通过深度研究聚合的信息可以被用来回答看似无害的问题——比如"爱丽丝的宠物猫叫什么名字?"——而这些问题反过来可能被用于密码恢复和账户盗取等二次攻击。

更令人担忧的是,当LLM驱动的搜索与封闭系统整合时,风险会进一步放大。微博的AI搜索功能就是一个典型例子。微博拥有2.56亿日活跃用户,其AI搜索功能作为RAG系统工作,检索用户帖子并使用DeepSeek-R1模型进行摘要。2025年4月,中国网民发现搜索用户ID可能导致个人详细信息的意外暴露,怀疑甚至私人帖子也可能被包含在内,这引发了激烈讨论和广泛恐慌。

这种聚合威胁的规模是前所未有的。传统上,收集某个人的详细信息需要大量的时间、技能和资源。但现在,LLM驱动的工具如深度研究功能能够以每任务不到1美元的成本实现这种聚合,F1分数超过0.94,有效地将以前不起眼的公共数据通过自动化综合和跨平台关联武器化。

这种能力特别危险,因为它针对的往往是"旁观者"——那些没有直接使用AI服务,但其信息散落在网络各处的人。这些人可能完全不知道自己的信息正在被收集和分析。而且,由于信息来源于"公开"数据,这种聚合行为往往游走在法律的灰色地带。

想象一个普通人,他可能在LinkedIn上有工作信息,在Facebook上有家庭照片,在Twitter上有观点表达,在各种论坛上有兴趣爱好的讨论。单独看,每一条信息都相对无害。但当AI系统将这些信息聚合起来时,就能构建出一个详细的个人档案:职业背景、家庭状况、政治倾向、兴趣爱好、日常活动模式等等。这个档案可能比这个人的朋友对他的了解还要详细。

研究数据显示,这类直接属性聚合风险在学术研究中受到的关注最少,仅占所有研究的0.2%。这种研究关注的严重失衡意味着,当这些威胁在现实世界中大规模出现时,我们几乎没有有效的防护措施。

六、学术界的"视野盲区":十年研究趋势分析

为了深入了解AI隐私研究的现状,研究团队对过去十年(2016-2025)在顶级会议上发表的1322篇AI/ML隐私论文进行了系统分析。这项分析揭示了一个令人震惊的现实:学术界的研究重点与真实世界的隐私威胁存在严重错配。

分析结果显示,48.4%的研究聚焦于训练数据泄露问题,43.6%关注直接聊天泄露,这两类问题合计占据了92%的研究注意力。相比之下,间接属性推断仅占5.8%,间接聊天和上下文泄露占2.0%,而直接属性聚合更是只有0.2%的研究关注。这就像消防部门把90%的精力都用来研究如何防范小火苗,却对正在燃烧的大火视而不见。

这种偏向的根源在于现有技术社区的发展轨迹。占主导地位的两个研究类别主要源于围绕特定技术的成熟且仍在增长的社区,包括差分隐私、联邦学习、同态加密、安全多方计算、可信执行环境和设备端机器学习等。除了差分隐私之外,这些技术主要限制与中心化服务器的数据共享,用于训练和推理目的。

在概念层面,这些方法确实为解决直接聊天泄露问题提供了潜在解决方案。比如,同态加密可以实现加密文本推理,确保在安全漏洞事件中不会暴露用户聊天记录。联邦学习可以在不要求用户数据与中央服务器共享的情况下进行模型训练,消除了在政策中使用暗黑模式或隐藏协议来强制用户为模型改进贡献数据的需要。在设备上完全运行模型进一步减少了与中央服务器共享数据的担忧。

然而,在实践中,这些方法可能会带来性能和可用性方面的成本,有时甚至是禁止性的。它们还可能产生安全和滥用方面的担忧——缺乏对真实世界AI使用情况的可见性可能会增加其他类型事件的可能性。由于LLM服务中的中心化数据收集已经成为且可能仍将是主流,因此需要在不假设极端去中心化或严格本地训练和推理的情况下解决此类事件的技术。

更值得注意的是不同学术场所之间的差异。在机器学习会议上,只有4.4%的论文涉及后三种事件类型,而在自然语言处理会议上这一比例上升到20%,在安全会议上为13.4%。这种差异反映了不同学术社区的关注焦点差异,机器学习社区更多关注技术实现,而安全和NLP社区更关注实际应用中的风险。

这种研究偏向带来的后果是严重的。当真正的隐私威胁大规模出现时,我们缺乏足够的理论基础和技术工具来应对。更危险的是,这种偏向可能会误导公众和政策制定者,让他们以为训练数据泄露是最主要的威胁,从而忽视其他更紧迫的风险。

研究团队在间接属性推断类别中观察到了两代不同的工作。2024年之前,该类别的研究主要关注学习隐私保护的神经表示,例如防止从文本嵌入中推断敏感属性。自2024年以来,大语言模型的兴起显著扩展了攻击面。预训练的LLM具有强大的能力,可以直接从文本中推断个人属性。这一转变突出了一个严重问题:此类攻击已经民主化,使得技术专长有限的个人也能执行,并且由于文本在日常生活中远比专门的神经表示更普遍,因此构成了更广泛的风险。

七、技术解决方案:当前可行的防护策略

尽管面临的隐私威胁多样且复杂,但研究团队也提出了一系列可以立即部署的技术解决方案。这些方案就像给房屋安装多层安全系统一样,通过不同层次的防护来保护用户隐私。

本地数据最小化是最直接有效的方法之一。就像在邮寄信件前先检查并涂黑敏感信息一样,这种方法在数据传输到云端服务之前就进行处理。Rescriber系统展示了这种方法的可行性,这个浏览器扩展由本地运行的Llama3-8B模型驱动,能够在云端传输之前有效清理个人信息,性能可与GPT-4o相媲美,同时保持对隐私实用性权衡的完全用户控制。

设备端推理技术也在快速发展。现代智能手机已经能够支持70亿参数的模型,达到可接受的性能水平,而WebLLM则使用WebGPU加速实现了高性能的浏览器原生推理。PRISMe等浏览器扩展使用本地模型实时分析隐私政策,完全在设备上处理数据,无需用户信任中心化提供商处理敏感信息。

混合远程-本地架构提供了另一种平衡性能和隐私的方案。基于Socratic Models框架,最近的工作展示了隐私保护的思维链推理如何在通用远程处理和加密本地数据库搜索之间分配任务。Split-N-Denoise架构通过校准噪声注入和客户端去噪提供本地差分隐私保证,同时保持优越的隐私实用性权衡。

隐私对齐是另一个重要方向。Constitutional AI已经被明确扩展用于隐私保护,Anthropic的框架融合了源自人权宣言的原则。PROPS机制展示了仅保护人类偏好而非整个训练样本可以在减少扰动要求的同时实现竞争性能。Google在用户级差分隐私微调方面的研究表明,生产可行的隐私保护在规模上是可以实现的,尽管计算开销不容忽视。

限制模型误用的研究也在进展。Sophon提出了一种非微调学习方法,旨在限制任务可转移性,通过结构性限制预训练模型适应意外下游任务的能力来减少将模型重新用于恶意用途的风险。Mendes等人介绍了地理位置共享中精细隐私控制的技术,利用视觉语言模型执行精细的用户定义规则。

针对记忆漏洞问题,研究发现虽然预训练数据的逐字记忆构成有限的隐私风险,但微调通常会将记忆率从0-5%的基线增加到60-75%。更令人担忧的是潜意识学习模式,它们通过语义上无关的统计模式传输行为特征,创造隐藏的信息泄露渠道。当与上下文外推理能力和基于音素的跨模态记忆攻击相结合时,这些漏洞能够通过看似良性的查询实现复杂的隐私违规。

多层防御研究表明,四层防御——语义去重、差分隐私生成、基于熵的过滤和基于模式的内容过滤——可以在保持94.7%原始效用的同时实现近乎完全的数据泄露消除。多智能体隐私框架通过专门的推理分解实现了18-19%的私人信息泄露减少,而用户主导的系统在改善用户满意度的同时显示出无准确性损失。

八、社会技术方法:重建人机信任关系

技术解决方案虽然重要,但并不足以完全解决AI隐私问题。就像单纯依靠防盗锁无法完全保障家庭安全一样,我们还需要建立更好的社会规范、用户意识和系统设计。隐私本质上是一个社会技术问题,需要技术专家、设计师、政策制定者和受影响社区之间的协作。

输入隐私控制是解决方案的关键组成部分。先前研究表明,用户对其数据在响应生成(推理)和模型改进(训练)中的使用方式往往持有错误的心理模型。这与对意外数据源的分析以及ChatGPT记忆等功能增加的复杂性相吻合,用户认为系统"比我更了解我",以及间接推理和直接聚合对任何在线数据的威胁相一致。

人们需要在多个层面上获得更好的意识支持。首先是了解他们直接或间接分享了什么信息可能提供给AI系统;其次是了解包含了哪些敏感属性;第三是了解这些信息将如何被使用;第四是了解哪些信息被记忆——无论是存储、用作持续上下文还是内化到模型中;最后是了解可能产生的风险或伤害。

Rescriber等工具展示了有希望的方向,它通过检测和突出显示用户输入中的潜在敏感内容来实现用户主导的数据最小化,让人们对清理过程有更大的控制权。参与者报告说,仅仅能够看到他们消息的哪些部分被标记为敏感就已经非常有价值。MemoAnalyzer提供了一个用户中心的界面,可视化和管理ChatGPT记忆,从而帮助用户主动识别和解决隐私泄露。

输出隐私控制在自主AI助手快速发展的背景下变得尤为重要。研究表明,人类对AI的过度依赖可能会降低人类监督在确保隐私保护方面的有效性。这需要进一步研究人类与模型在信息显著性方面的差异,建模人类错误和认知偏见,并设计帮助人们识别错误并做出更理性决策的机制。

上下文隐私是另一个重要挑战。虽然上下文完整性提供了有价值的框架,但在实践中仍然难以操作化。越来越多的工作通过这个镜头构建了LLM的隐私风险。ConfAIde基准测试展示了当前模型在隐私推理方面的关键差距:虽然模型可能检测到敏感属性的直接披露,但它们经常无法尊重上下文规范,揭示了LLM隐私推理中更深层的弱点。

PrivaCI-Bench将隐私合规评估扩展得更全面,整合了源自隐私法律、真实法院案例和政策文件的社会上下文。GoldCoin框架使用上下文完整性将LLM建立在法律推理上,通过生成由HIPAA等隐私法律信息的合成司法场景来训练LLM检测各种合成和真实世界案例中的违规行为。

在系统层面,AirGapAgent解决了上下文劫持这一具体攻击向量,恶意第三方试图操纵对话代理泄露私人数据。该防御机制通过确保只有任务相关信息可供代理访问来强制执行上下文限制。然而,隐私管理涉及多个有时相互冲突的方面,超越了仅仅的规范——法律、社会期望和个人偏好都发挥着重要作用。

隐私权衡管理也是一个重要考虑。许多隐私增强技术将优化隐私置于目标的中心,而这在现实生活中人类决策中很少是这种情况。在实践中,隐私决策经常与效用、便利性和货币成本等因素冲突。自主代理通过在个性化、隐私和自主权之间引入紧张关系进一步复杂化了问题。

PAPILLON展示了本地-远程模型委托如何在减少隐私泄露的同时平衡响应质量。除了隐私-效用平衡之外,数据最小化提供了另一种策略:它优先考虑效用,同时确保披露最少量的敏感信息。最近的工作已经探索了数据最小化作为面向用户的输入隐私控制和校准代理行为中披露的指导原则。

九、政策与治理:重建数字权力平衡

单靠技术和社会技术方法无法完全解决研究团队识别的五类个人数据事件。像LLM提供商公司与用户之间的不对称权力关系、用户缺乏AI和隐私素养,以及隐私与其他因素(如可用性、效用和货币价值)之间的复杂权衡等问题,很容易产生操纵性设计实践和暗黑模式。

随着自主LLM代理的广泛采用并代表人类用户充当"网民",操纵行为的特征和暗黑模式的定义可能需要更新,以考虑LLM的独特漏洞。特别是,这些更新应该结合FTC法案第5条等法律,该法律禁止不公平或欺骗性行为或做法。将这些保护扩展到LLM介导的交互将有助于确保欺骗性设计选择或LLM生成的操纵性输出能够得到与影响消费者的传统暗黑模式同样严肃的评估。

LLM的对抗性使用需要监管和政策角度的重大支持,并引发了新的挑战。一方面,这种对抗性使用可能侵犯个人隐私,难以检测和禁用,特别是当它们优先考虑隐秘性并转向去中心化或本地推理时。然而,它们也引发了更广泛的隐私辩论,涉及出于滥用监控目的访问和保留用户聊天数据,正如《纽约时报》诉OpenAI案所示。

研究团队特别强调,隐私应该更多地在实地进行研究。换句话说,虽然理论提供框架,法律和政策建立指导原则,但它们仍然不足以捕捉现实世界的细微差别或完全符合实际人类需求。当出现冲突时,应该优先考虑现实世界的人类需求,这需要改进的引出方法。法律要求相对明确,但未言明的社会规范更难捕捉,人类偏好是异质的,在个人、上下文甚至在同一人内根据时间和刺激而变化。

当前资源仍然有限,只有ConfAIde和PrivacyLens等少数努力,两者都停留在法律和社会规范层面。需要的是可扩展、真实、后果感知和社会意义的方法来引出上下文中的偏好和规范。除了原始测量之外,还存在跨学科边界传达发现的挑战。

可观察性在理解现实世界影响方面也面临挑战。虽然研究团队的分析发现了少量在受控环境中审计对抗性能力的工作,但这并不能替代审计野外对抗性使用的需要,这带来了重大挑战。大规模测量工作显示了前景,但观察数据本身就是不完整和有偏见的:人们可能故意隐瞒他们对AI的使用,或者在AI使用可能招致羞辱或去合法化的专业环境中避免披露。

研究团队通过系统地将攻击和防御技术映射到观察到的现实世界事件,揭露了现有技术和研究议程未解决的紧迫风险差距。他们倡导进行更多的测量努力,定期和持续地进行。

十、未来展望:构建更安全的AI未来

这项研究揭示了一个令人深思的现实:我们对AI隐私威胁的理解还停留在冰山一角。虽然学术界花费了大量精力研究训练数据泄露这个相对较小的问题,但真正威胁用户隐私的其他四大类风险却几乎被忽视。这种研究重点的错配不仅浪费了宝贵的学术资源,更重要的是,它让我们在面对真正的隐私威胁时缺乏有效的防护手段。

展望未来,研究团队提出了一个多层次的解决方案框架。在技术层面,他们建议实施用户主导的数据最小化、为隐私敏感用例提供本地推理选项、采用保留加密保证同时利用云能力的混合架构,以及在后训练期间融入隐私特定对齐。但他们也强调,技术解决方案必须与社会技术方法相结合,包括上下文完整性框架、意识工具和权衡可视化等。

更长远来看,研究团队认为必须解决突现记忆行为这一根本挑战,这些行为创造了超出当前保护机制范围的可利用漏洞模式。这需要从根本上重新思考AI系统的设计和训练方式,而不仅仅是在现有系统基础上添加保护层。

政策层面的改革同样重要。当前的法律框架主要针对传统的数据收集和使用模式设计,难以应对AI系统带来的新型隐私威胁。需要新的法律和监管框架来解决AI时代的隐私保护问题,包括对AI系统的透明度要求、用户控制权保障、以及对操纵性设计的禁止。

研究团队特别强调了跨学科合作的重要性。隐私问题本质上是社会技术问题,需要技术专家、法律学者、政策制定者、设计师和用户共同参与解决。只有通过这种全方位的合作,我们才能构建真正保护用户隐私的AI系统。

随着AI系统变得越来越强大和普及,隐私保护的紧迫性只会增加。这项研究为我们敲响了警钟:我们不能再将注意力局限在训练数据泄露这一单一问题上,而必须正视AI隐私威胁的全貌。只有这样,我们才能在享受AI技术带来便利的同时,保护好我们的隐私和尊严。

说到底,这不仅仅是一个技术问题,更是一个关于我们想要什么样的数字未来的根本性问题。我们是要一个AI系统像隐形监视者一样知晓我们的一切,还是要一个真正尊重用户隐私、赋予用户控制权的AI生态系统?这个选择,需要我们每个人的参与和努力。

Q&A

Q1:大语言模型的隐私威胁除了训练数据泄露还有哪些?

A:研究发现了五大类威胁:训练数据泄露、聊天记录泄露、AI助手上下文泄露、间接属性推断和直接属性聚合。其中后四类威胁更严重但被忽视,包括AI公司收集用户对话、AI助手无意中向他人泄露用户信息、通过分析推断用户敏感信息,以及将网上分散信息拼凑成完整档案等。

Q2:为什么学术界过度关注训练数据泄露问题?

A:主要因为现有技术社区的发展轨迹导致的。92%的研究集中在差分隐私、联邦学习等成熟技术领域,这些技术主要解决训练数据问题。但现实中LLM服务主要采用中心化数据收集模式,而学术界缺乏针对其他隐私威胁的研究框架和工具。

Q3:普通用户如何保护自己免受这些隐私威胁?

A:用户可以采取多种措施:使用本地数据最小化工具清理敏感信息、选择提供设备端推理的服务、仔细阅读并主动退出数据收集政策、避免使用AI反馈功能(点赞点踩)、限制向AI分享个人敏感信息,以及使用混合架构服务平衡隐私与功能需求。


发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap