祝贺陈文智教授团队论文被NDSS 2024录用

浙江大学计算机系统结构实验室魏成坤和孟文龙的论文“LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors”20238月被网络安全领域“四大顶会”之一的Network and Distributed System SecurityNDSS 2024)录用。该论文由陈文智教授指导,分析了提示学习场景下模型训练者面临的后门攻击的安全隐患,并提出了一种在不需要更新语言模型参数的情况下检测和消除后门的方法。该方法为语言模型的安全部署提供了保障。


会议介绍

NDSS是由ISOC举办的网络与分布式系统安全领域最重要的学术会议,与IEEE S&PCCSUsenix Security并称为网络安全领域的“四大顶会”,论文接收率低于17%


大语言模型提示学习场景中遇到的安全威胁

NLP领域,随着预训练语言模型参数量逐渐增大,原本的预训练-微调范式受到挑战,微调大模型使其适应下游任务的成本愈发高昂。近年来,提示学习(prompt-tuning)作为一种新的部署语言模型到下游任务的范式被提出。提示学习冻结预训练模型的参数,在此基础上添加一些提示参数(soft prompt)。用户在用下游任务数据集训练大模型时只更新提示参数。提示参数的参数量不到原模型的1%,使得用户可以在消费级显卡上训练大模型。然而,提示学习这种范式非常容易受到预训练模型后门攻击的影响,攻击者将后门埋入预训练模型,然后将其发布在开源模型库上(如HuggingFace)。如果用户下载了这些带有后门的预训练模型,攻击者就可以通过在输入中添加后门触发单词(trigger)操纵下游模型的输出。由于提示学习冻结预训练模型参数的天性,这些隐藏在预训练模型中的后门极难在训练过程中被消除。


提示学习场景下的后门检测与消除

LMSanitator是一种针对NLP提示学习场景的后门的后门检测与消除技术。与传统后门检测方法逆向trigger的思路不同,LMSaniatror逆向异常的输出,使其在task- agnostic backdoor计算上有比以往SOTA方法更好的收敛性。LMSanitator借鉴了软件测试中常用的Fuzz testing的方法,随机生成初始输入,循环逆向输出,可以在1000次循环内达到94.8%的后门召回率。LMSanitator根据逆向出的异常输出向量监视提示学习模型的特征输出,比较特征输出与异常输出之间的相似性,从而判断输入中是否含有trigger。在后门检测任务上,LMSanitator达到了92.8%的后门检测精度;在后门消除任务上,LMSanitator可以在绝大多数场景下将攻击成功率降到1%以下。在达到上述目标的同时,LMSanitator不要求模型训练者更新语言模型参数,保证的提示学习的轻量性。


作者介绍

论文第一作者魏成坤和第二作者孟文龙分别为为浙江大学计算机系统结构实验室(ZJU ARClab)博士后和在读博士生,主要研究方向为隐私计算、机器学习系统中的模型与数据安全等。


<<< 返回