近日,由浙江大学计算机体系结构实验室(ARClab)和蚂蚁链摩斯组成的参赛队伍“Morse & ARClab”荣获第三十八届神经信息处理系统年会(NeurIPS 2024)特设官方赛——大语言模型隐私挑战赛(LLM-PC)全部两个赛道中攻击赛道的冠军和一个最佳实用防御奖。
赛事介绍
NeurIPS是机器学习领域三大旗舰会议之一,也是中国计算机学会A类推荐会议。大语言模型隐私挑战赛(LLM-PC)是本届NeurIPS的特设官方竞赛。竞赛聚焦大语言模型训练数据的隐私安全。本次竞赛由加州大学伯克利分校、德州大学奥斯汀分校、伊利诺伊大学厄巴纳-香槟分校、新加坡国立大学、Center for AI Safety等高校与机构联合命题组织,吸引了来自加州大学伯克利分校、芝加哥大学、微软、亚马逊等30支队伍参与角逐,汇聚全球顶尖的研究人员、开发人员和从业人员,共同面对解决人工智能隐私保护领域面临的重大挑战。
参赛者的任务是设计与实现创新解决方案,从下游模型中窃取训练数据中的隐私或者设计隐私保护训练方法。竞赛不仅能够激发技术创新,还将促进业界对人工智能安全影响的深入理解,有助于推动整个领域向构建更加安全、可靠的AI系统目标前进。
赛道介绍
LLM-PC竞赛于2024年7月底开始,设由红色和蓝色两个赛道,红色赛道要求参赛者设计针对大模型的训练数据窃取方法,蓝色赛道要求参赛者设计隐私保护方法。两个赛道都要求提供的算法可以24小时之内3块H100上完成。
赛道一:Red-Team Track
红队成员的任务是发现大型语言模型中可能泄露敏感信息的漏洞。这一任务直接与行业面临的防止可能导致重大财务和声誉损失的数据泄露挑战相关联。一个实际的例子是从在私有领域数据(如金融数据)上微调的模型中提取个人可识别信息(PII)。参赛者需要在比赛方提供的使用隐私数据微调的Llama-3.1-8B模型上提取PII数据。红队赛道根据PII数据的准确度排名。
赛道二:Blue-Team Track
蓝队成员则专注于加强大型语言模型对隐私攻击的防御,提升它们保护数据的能力。这反映了学术界和工业界创造尊重用户隐私的安全人工智能系统的追求。一个应用场景可能包括设计方法来清洗对大型语言模型的健康相关查询的输出,确保不会无意中泄露敏感的患者信息。参赛者根据提供的模型和数据设计防御方法抵御红队的攻击。
方法介绍
Red-Team Track
我们的攻击方法包括两个主要步骤。首先,我们通过查询目标模型来构建提示语,促使其为每个掩盖的个人可识别信息(PII)生成候选回应。接下来,我们计算每个生成候选插入原文后,整个句子的损失值。然后,我们基于损失的贪心搜索,选择损失值最低的候选作为最终输出。我们设计了一种高效的基于分段与聚合的损失计算方法,以加速候选项的选择过程。我们的实验表明,我们的方法在比赛提供的Llama3.1-8B模型上可以达到0.233的攻击成功率。
Blue-Team Track:
我们的防御方法包括两个主要步骤。首先,我们对包含个人可识别信息(PII)的语料进行随机替换,这一步中我们会对每种PII(例如姓名,地址等)从对应候选集合中随机选取一个词进行替换,其中候选词是通过访问外部大模型获取的。之后,我们使用替换后的语料以自回归的方式微调目标模型。通过这样的方式,可以扰乱大模型对PII信息的记忆,降低其输出正确PII的可能。我们的方案对模型推理时间几乎没有影响,可以使主办法提供的攻击方法成功率相对降低30.6%,同时在MMLU,truthfulqa等基准数据集上的结果也表明我们的方法对模型性能几乎没有损耗。
团队介绍
获奖成员来自浙江大学计算机体系结构实验室(ARClab)与蚂蚁链摩斯。其中参赛学生为孟文龙(ARClab博士生)、郭镇远(ARClab博士生)、吴乐南、杨勇(ARClab博士生),蚂蚁方面参赛人员为刘文炎,李唯贤(ARClab毕业生),殷山。指导老师为陈文智教授、魏成坤研究员。