为大语言模型保驾护航!ARClab实验室斩获2024年NDSS杰出论文奖

2024226日到31日,网络安全领域“四大顶会”之一Network and Distributed System SecurityNDSS 2024)在美国圣迭戈举办。浙江大学计算机系统结构实验室(ZJU ARClab)魏成坤和孟文龙的论文LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors在本次会议录用的140篇论文中脱颖而出,斩获大会杰出论文奖Distinguished Paper Award,仅4篇论文获此殊荣。

该论文由陈文智教授指导,分析了提示学习场景下模型训练者面临的后门攻击的安全隐患,并提出了一种在不需要更新语言模型参数的情况下检测和消除后门的方法。该方法结合ARCLab实验室开源大模型OpenBuddy社区的应用需求,为语言模型的安全部署提供了保障。

会议介绍


NDSS全称为网络与分布式系统安全会议(The Network and Distributed System Symposium),是由ISOC举办的网络与分布式系统安全领域最重要的学术会议,自1993年以来已连续开办三十余届。NDSSIEEE S&PCCSUsenix Security并称为网络安全领域的四大顶会BIG4),同时也是中国计算机学会推荐的A类会议,论文录用率常年保持在17%左右,具有非常高的学术影响力。2024NDSS会议共收到694篇投稿,140篇论文被接受,杰出论文仅4篇。


大语言模型提示学习场景中遇到的安全威胁



由于现代NLP模型越来越庞大,原本的预训练-微调范式受到挑战,微调大模型使其适应下游任务的成本愈发高昂,普通开发者难以微调预训练模型中的所有参数。近年来,提示学习Prompt-tuning这种冻结预训练模型、增加少量可训练参数的训练方法降低了适配下游任务的计算资源开销,在大模型社区逐渐流行。

由于提示参数的参数量不到原模型的1%,用户可以在消费级显卡上训练大模型。然而,提示学习这种范式难以消除预训练模型中的后门,使得攻击者在预训练模型中投毒成为可能。例如,攻击者可以将后门埋入预训练模型,然后将其发布在开源模型库上(如HuggingFace等),如果用户下载了这些带有后门的预训练模型,攻击者就可以通过在输入中添加后门触发单词(trigger)操纵下游模型的输出。由于提示学习冻结预训练模型参数的天性,这些隐藏在预训练模型中的后门极难在训练过程中被消除。

提示学习场景下的后门检测与消除



为了防御预训练模型中的后门攻击,论文中提出了一种针对NLP提示学习场景的后门防御框架LMSanitator

与传统后门检测方法逆向trigger的思路不同,LMSaniatror逆向异常的输出,使其在Task-Agnostic Backdoor计算上有比以往SOTA方法更好的收敛性。此外,LMSanitator借鉴了软件测试中模糊测试的方法逆向出预训练模型中的异常输出,然后在提示学习模型的输出端监测其输出是否异常

实验结果

论文中评估了 LMSanitator 3种任务无关的后门攻击中,针对十余种最先进的语言模型和8种下游任务的效果,证明了该模型的有效性。在后门检测任务中,LMSanitator960个模型上取得了92.8%的后门检测精度;在后门消除任务中,LMSanitator可以在绝大多数场景下将攻击成功率(ASR)降到1%以下。在达到上述目标的同时,LMSanitator不要求模型训练者更新语言模型参数,保证了提示学习的轻量性。

作者介绍

论文第一作者魏成坤和第二作者孟文龙分别为浙江大学计算机系统结构实验室(ZJU ARClab)博士后和在读博士生,主要研究方向为隐私计算、大模型与数据安全等。

团队介绍


浙江大学计算机系统结构实验室(ZJU ARClab)创立于1990年,由陈文智教授领衔经多年发展,建成了一支富有激情和创新活力的科研团队。ARClab以操作系统为核心竞争力,向下深入到体系结构,向上提升到分布式软件,横向扩展到信息安全。在过去一年多的时间里,团队先后在CCF A类国际顶级会议和顶级期刊录用和发表10余篇高水平学术论文。

日前诞生于ARClabOpenBuddy大模型也引起了业界的广泛关注,该模型展现了卓越的强认知能力,在多个基准测试中(包括CLiBSuperCLUE),OpenBuddy模型在逻辑推理、代码生成、阅读理解等方面表现出色,性能接近顶尖的闭源模型。而作为一个开源模型,OpenBuddy的权重完全开放下载,开发者可以进一步地使用特定场景的数据对其进行微调,获得垂直领域模型。    

基于OpenBuddy训练技术,ARClab进一步面向教育教学场景,推出了教育大模型[观止]。观止模型在具备强认知能力的基础上,对课堂交互、教师角色扮演和学科问答等核心下游任务进行了优化,并且通过集成语音技术、数字人技术提供丰富的交互能力,在英语口语学习、数字人答疑、校园服务问答等方面开展了深入的应用探索,取得了较好的反响。

ARClab始终欢迎优秀老师、同学的加入,期待与你们携手共创美好未来!

<<< 返回