浙江大学计算机系统结构实验室(ZJU ARClab)孟文龙博士生等人的论文《Dialogue Injection Attack: Jailbreaking LLMs through Context Manipulation》被信息安全领域国际顶级期刊IEEE Transactions on Information Forensics and Security(TIFS)正式录用。该论文在陈文智教授和魏成坤老师的指导下完成,首次提出了利用对话历史操纵来增强大语言模型越狱攻击的新范式,为大语言模型安全对齐机制的研究提供了重要的理论分析与实践支撑。
期刊介绍

IEEE Transactions on Information Forensics and Security(TIFS)是由IEEE主办的信息安全与取证领域重要国际学术期刊,在信息安全、数字取证、隐私保护等方向具有深刻的历史影响力,是CCF A类期刊之一,被认为是信息安全领域的代表性高水平期刊。TIFS对论文质量与创新性要求较为严格,强调扎实的理论基础、明确的问题建模以及完整的实验或系统验证。
研究目标与动机
随着以GPT-4、Llama等为代表的大语言模型在自然语言处理领域展现出强大的生成能力,其在代码生成、智能翻译、个性化推荐等内容生成应用中得到了广泛部署。为确保模型输出符合人类伦理标准,开发者通常采用基于人类反馈的强化学习(RLHF)等安全对齐技术。然而,这些安全机制并非坚不可摧——越狱攻击通过精心设计的对抗性提示,可以诱导大语言模型产生有害或不道德的内容。现有的越狱攻击研究主要集中在单轮交互场景,忽视了历史对话对模型行为的影响。虽然近期有研究开始探索多轮越狱攻击,但通常假设攻击者只能操纵用户提示。本研究指出,攻击者实际上也可以控制模型的历史输出,从而开辟了一条新的攻击向量。

Figure 1 利用对话模板实现虚假历史注入
DIA:对话注入攻击范式

Figure 2 DIA上下文构造方式
本文提出了DIA(Dialogue Injection Attack),一种新型的黑盒越狱攻击范式,利用大语言模型聊天模板的结构设计,向输入中注入欺骗性的历史对话。研究表明,攻击者只需知道目标模型的聊天模板,就可以利用模板结构向输入中插入任意的历史对话(包括助手文本和系统文本),这在黑盒场景中通常被认为是不可实现的。此外,本文还提出了模板推断攻击方法,使攻击者能够通过少量查询推断目标模型使用的聊天模板,进一步降低了攻击的前置知识要求。
基于DIA范式,本文提出了两种构建对抗性对话的方法。DIA-I将灰盒预填充攻击适配到黑盒场景,设计了肯定性开头自动生成模块(ABGM)来自动生成恶意响应的肯定性开头,并通过继续命令让模型延续其虚假的历史响应。DIA-II则基于一个新发现:延迟的恶意响应比立即生成的响应具有更高的对数似然。该方法让受害模型执行词汇替换任务,同时实现响应延迟和恶意内容伪装,并设计了相似示例生成模块(SDGM)来生成良性示例作为引导。
本文在三个开源越狱基准测试集上,针对10种大语言模型(包括Llama-3.1、GPT-4o、Claude-3.7等最新模型)进行了全面评估,并与四种最先进的黑盒越狱攻击方法进行对比。实验结果表明,在10次查询后,DIA在Llama-3.1-8B上达到0.89的攻击成功率,在GPT-4o上达到0.82。DIA还展现出对6种不同防御机制的强鲁棒性,平均防御通过率达到0.65。研究还揭示了一个反直觉的现象:更大的模型反而更容易受到越狱攻击,这表明在采用相同对齐策略时,模型能力的增强可能会侵蚀其安全特性。
作者介绍
论文第一作者孟文龙为浙江大学计算机系统结构实验室在读博士生,主要研究方向为大语言模型安全。