近日,第63届国际计算语言学年会ACL 2025的论文录用结果揭晓,浙江大学计算机系统结构实验室(ARClab)博士生孟文龙和郭镇远的两篇论文均被录用。论文在陈文智教授和魏成坤老师联合指导下,聚焦大模型核心细分领域展开深度研究,充分展现了团队在该领域的创新突破和前沿探索能力。
会议介绍
ACL 是计算语言学与自然语言处理领域国际顶级学术会议,由计算语言学协会(Association for Computational Linguistics, ACL)主办,聚焦于语言学、人工智能、机器学习与语言技术的交叉研究。ACL会议是中国计算机学会(CCF)认定的人工智能领域的A类会议,同时也是NLP领域公认的“四大顶会”之一。
论文一“R.R.: Unveiling LLM Training Privacy through Recollection and Ranking”
提出了一种面向大语言模型训练隐私分析的攻击系统R.R.(Recollect and Rank),能够在仅获得经过脱敏的训练数据和黑盒模型API权限的情况下,有效重构被掩码的个人信息(PII)。为提升排序准确性,R.R.引入了参考模型的校准思想,通过对比受害者模型和其与训练模型的损失,提出偏置融合的排序准则,有效结合两者的优势。
现有PII重构攻击方法中存在的问题
现有的PII重构攻击方法主要聚焦于如何针对单条被掩码的文本高效恢复敏感信息,侧重于提升单例PII恢复的准确率。然而,这些方法往往依赖于简单的前缀补全或困惑度排序,未能充分利用上下文的全部信息,对实际应用场景中的大规模、批量 PII 恢复效果有限。此外,当前方法大多仅针对依赖传统语言模型记忆机制的协议,忽略了大语言模型对上下文敏感性及复杂推理能力的提升。随着新型LLM不断发展,现有方法在应对更复杂、结构化文本或多实体、多类别PII掩码的场景下表现不佳,准确率低且缺乏扩展性。更重要的是,这些攻击方法尚未充分考虑实际黑盒API场景下的查询成本和交互效率,导致其在真实大规模数据隐私风险分析中的实用性受限。
基于回忆与排序的两步骤PII重构攻击
本文提出了一种基于回忆与排序的两步骤 PII 重构攻击方法(Recollect and Rank, R.R.)。首先,我们引入回忆范式,通过特殊提示引导受害大语言模型在上下文信息的帮助下补全被掩码的敏感实体,并利用实体识别工具自动提取一组候选PII。随后,我们提出了一种基于偏置交叉熵损失的排序机制,将候选PII插入原文进行评估,并结合参考模型与目标模型的分数进行校准,从而准确定位最有可能的原始敏感实体。借助于该方法,R.R.能够充分挖掘LLM的隐式记忆能力,在黑盒API场景下有效提升批量 PII 重构的准确率。实验结果显示,R.R.方法在多个公开数据集和不同类型LLM上,PII恢复准确率较现有方法提升超过100%,首次揭示了即便训练数据经过脱敏处理,敏感信息依然面临显著的泄露风险。
论文二“Be Cautious When Merging Unfamiliar LLMs: A Phishing Model Capable of Stealing Privacy”
首次揭示了模型合并过程中可能存在隐私数据泄漏问题,提出了一种针对模型合并的的隐私数据窃取方法PhiMM(Phishing Model Merging)。该方法通过训练伪装一个会造成隐私泄漏的钓鱼模型,诱导用户下载合并钓鱼模型。一旦用户合并了该模型,攻击者可以使用钓鱼指令窃取模型的隐私数据。该工作呼吁开源社区严格审查上传的模型,并且提醒用户在使用不熟悉开源模型时需提高警惕。
研究动机:模型合并可能存在隐私泄漏问题
模型合并(Model Merging)技术可以将多个经过特定任务微调的大语言模型(Large Langue Model, LLM)能力合并到一个LLM。这项技术回收并且再利用微调后的专业模型,节省了大量的计算资源,因此受到了许多研究者和机构的关注。然而大部分微调后的专业LLM来自于开源社区,而目前社区并没有严格的模型审查机制,从中下载合并一个LLM是否真的安全依然是一个未知问题。本文通过隐私安全的角度,设计了PhiMM针对模型合并的隐私窃取方法,首次揭示一个被研究者忽略的问题:从开源社区下载并合并一个不安全的LLM会泄漏其他参与合并LLM的训练数据隐私信息。可以从图中看到,在合并了一个钓鱼模型后,模型受到攻击的准确率回提升。
基于回忆与排序的两步骤PII重构攻击
本文提出了针对Model Merging的隐私攻击方法PhiMM。攻击者训练一个能够窃取隐私数据的钓鱼模型,并诱导用户从开源社区下载并合并到鱼模型。受害者一旦合并了钓鱼模型,合并后的LLM会继承隐私窃取能力,攻击者可以使用钓鱼指令窃取隐私。具体的攻击流程如上图所示所示:(1)攻击者首先通过一个辅助数据集初始化一个具有隐私信息的LLM,之后使用它构建隐私钓鱼指令数据集。具体的攻击指令样例可以参考上图左侧,本文考虑了数据提取攻击(Data Extract Attack,DEA)和成员推理攻击(Membership Information Attack,MIA)两种常见的隐私威胁,构建了DEA和MIA两种隐私钓鱼指令来窃取隐私信息。之后攻击者使用隐私钓鱼指令数据集微调一个钓鱼模型,该模型能够根据指令输出数据的隐私信息。(2)为了引诱用户下载钓鱼模型,本文使用特定任务数据集(例如数学问答)微调它,使他能够具备数学问答能力。但这会引起灾难性遗忘。为了解决这个问题,本文在训练时候引入了钓鱼伪装平衡损失(Phishi-Cloak Balance Loss,PCBL),能够在伪装任务训练时重温钓鱼指令数据,平衡了伪装能力和隐私钓鱼能力。(3)受害者根据需求去开源社区寻找能够进行数学问答的LLM,如果不小心下载了钓鱼模型,合并他到自己的隐私模型。攻击者可以通过攻击指令构建隐私钓鱼查询,提问合并后的LLM窃取受害者的数据隐私。
作者介绍
论文一第一作者孟文龙,为浙江大学计算机系统结构实验室(ARClab)2021级在读博士生,主要研究方向为大模型安全与隐私保护。论文二第一作者郭镇远为浙江大学计算机系统结构实验室(ARClab)2024级在读博士生,主要研究方向为大模型高效推理。