NeurIPS24新研究提出大模型越狱攻击新基准 什么影响大模型安全

全新大语言模型越狱攻击基准与评估体系来了。

来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。

提出 攻击分析系统性框架JailTrackBench

JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的能力、预算、对抗性后缀长度,以及模型的大小、安全对齐情况、系统提示和模板类型。

其研究成果《Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs》现已被NeurIPS D&B 2024接收。

此外,为了全面解决大语言模型的越狱问题,USAIL团队不仅专注于攻击,还深入探讨了 越狱评估 这一核心问题。

越狱分析JailTrackBench

近年来,随着人工智能的迅速发展,尤其是大语言模型(LLMs)的广泛应用,保障模型的安全性并防止其被恶意利用,已成为一个重要的议题。越狱攻击通过恶意指令诱导模型生成有害或不道德的内容,对模型的安全性和可靠性构成了严峻挑战。

这种攻击与防御的博弈,极大地推动了大模型安全性的提升。

在这一背景下,香港科技大学(Guangzhou)USAIL研究团队从攻击者和防御者的角度,探讨了影响大模型安全性的关键因素。

尽管已有研究揭示了多种越狱攻击的威胁,现有的评估方法往往过于片面,无法全面涵盖攻击与防御两方面的核心因素。

为此,团队提出了JailTrackBench,一个全面涵盖越狱攻击各个方面的系统性基准测试框架,旨在为研究人员提供一个标准化、全面的评估工具。

△图1 JailTrackBench框架

通过对七种具有代表性的越狱攻击和六种防御方法的320项实验,使用50,000 GPU小时,团队以标准化的方式评估了这些攻击方法的效果。

目标模型层面

模型大小(Model Size)

实验(如图2所示)中选择了不同规模的模型(如Llama-7B、Llama-13B、Llama-70B,Qwen1.5-14B等)进行对比,探讨模型规模对越狱攻击的防御能力是否有显著影响。

实验结果表明,模型的鲁棒性并不与其规模成正比,较大的模型并不总是比较小的模型更具防御能力。

△图2 模型大小与鲁棒性的关系

安全对齐情况(Safety Alignment):

模型的安全能力会被后续的大模型微调所影响。

实验表明(如图3所示),经过领域类的微调(fine-tuning)大模型,其安全能力会降低,相比之前没有微调的模型则更容易受到攻击。

△图3 安全对齐情况与模型鲁棒性

系统提示(System Prompt)

实验(如图4所示)还评估了系统提示(如包含安全提示的系统消息)对模型安全性的影响。结果显示,包含安全提示的系统消息能够显著增强模型的安全性,减少攻击成功率。

△图表 4 系统提示与模型类型

模板类型(Template Type)

实验(如图5所示)测试了不同提示模板(如零样本提示与默认提示)对越狱攻击成功率的影响。结果显示,使用默认提示的模型比使用零样本提示的模型更加安全。

△图5 模版类型与模型鲁棒

攻击者层面

攻击者能力(Attacker Ability)

攻击者(如图6所示)使用不同的模型(如GPT-3.5、GPT-4、Vicuna-13B等)来生成对抗性提示,实验评估了不同攻击者模型能力对越狱攻击成功率的影响。结果表明,攻击者模型越强,越狱攻击的成功率越高。

△图6 攻击者能力与攻击效果

对抗性后缀长度(Adversarial Suffix Length)

在针对令牌级别的越狱攻击中,实验(如图7所示)通过调整对抗性后缀的长度(如10、20、30等)来评估其对攻击成功率的影响。结果表明,较长的对抗性后缀通常能提高攻击成功率,但超过一定长度后效果趋于平稳。

△图7 对抗性后缀长度与攻击效果

攻击者预算(Attacker Budget)

实验(如图8和9所示)探讨了攻击者可以提交的查询次数对攻击效果的影响。实验表明,对于令牌级别的攻击,攻击预算越大,攻击成功率越高;而对于提示级别的攻击,预算的影响则较为有限。

△图8 指令级别攻击的预算

△图9 提示级别攻击的预算

攻击意图(Attack Intention)

实验(如图10所示)设计了多种不同的攻击意图(如隐私侵犯、恶意软件等)来评估其对攻击成功率的影响。结果表明,不同的攻击意图会显著影响攻击的成功率,某些攻击意图(如经济损害)更容易成功,而其他意图(如隐私侵犯)则较难得逞。

△图10 攻击者意图

通过对一些不易察觉的设置进行简单调整(见表1),包括攻击者和目标模型,研究发现大模型越狱攻击的成功率可以从0%飙升至惊人的90%(如图11所示)。这些设置涵盖了多个关键因素,如目标模型的规模、安全对齐方式、系统提示的使用,以及攻击者的能力和攻击预算。

△表格1:不同技巧组合的配置,从弱到强(weak to strong)

△图11 不同技巧组合对越狱攻击成功率的显著影响

越狱评估JAILJUDGE

越狱评估依赖于对模型输出内容的有害性进行分析,这一任务复杂且充满不确定性(见图12)。因此,迫切需要一种系统化的评估方法,帮助研究者和开发者深入了解模型的脆弱性,并持续优化其防御能力。

,在此背景下应运而生的。

由USAIL团队联合百度搜索团队及英国伯明翰大学共同提出,JAILJUDGE旨在弥补现有越狱评估工具的不足,尤其是应对复杂场景下的挑战。

该评估框架涵盖广泛的风险场景,如对抗性越狱查询、真实世界交互以及多语言环境等。JAILJUDGE的核心创新是引入了多Agent越狱评估框架,借鉴法庭审判的模式,通过多个Agent的协作,实现对越狱判断过程的明确化和可解释性。

每个Agent(如判断Agent、投票Agent和推断Agent)分工明确,通过协作得出精确的评估结果,并提供解释性理由。

△图12:越狱评估:输入用户问题和模型回答,判断大模型是否被越狱

为进一步提高评估效率,USAIL团队开发了 JAILJUDGE Guard ,这是一种端到端的越狱评估模型,不需要API调用即可提供细粒度的越狱评分(评分范围从1到10),并伴随推理解释。

JAILJUDGE Guard不仅在评估精度上超越了现有的顶级模型(如GPT-4和Llama-Guard),还在闭源和开源安全模型上展现了强大的评估能力,同时具备更高的效率和更低的成本。

此外,团队还推出了 JailBoost和GuardShield 两大工具,以强化越狱攻击和防御。实验表明,JailBoost在零样本设置下将攻击成功率提高了约29.24%,而GuardShield则将防御后的攻击成功率从40.46%大幅降低至0.15%。

未来,团队计划进一步扩展JAILJUDGE的功能和应用场景,包括:

项目网站:https://secure-intelligence.github.io/团队链接:https://github.com/usail-hkust

JailTrackBench论文地址:https://arxiv.org/pdf/2406.09324代码:https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_JailbreakingJAILJUDGE论文地址:https://arxiv.org/abs/2410.12855项目主页:https://usail-hkust.github.io/Jailjudge代码:https://github.com/usail-hkust/Jailjudge数据集:https://huggingface.co/usail-hkust/JailJudge-guard端到端越狱评估模型:https://huggingface.co/usail-hkust/JailJudge-guard


AI求解偏微分方程新基准登NeurIPS,发现JAX计算速度比PyTorch快6倍,LeCun转发:这领域确实很火

用AI求解偏微分方程,这段时间确实有点火。 但究竟什么样的AI求解效果最好,却始终没有一个统一的定论。 现在,终于有人为这个领域制作了一个名叫PDEBench的完整基准,论文登上了NeurIPS 2022。 PDEBench不仅能当成一个大型偏微分方程数据集,也能作为新AI求解偏微分方程的基准之一——不少“老前辈”的预训练模型代码都能在这里找到,作为一个比对基础。 例如去年大火了一阵的FNO, 几秒钟求解出传统方法需要计算18个小时的偏微分方程,代码就被放进了PDEBench中。 这个新基准一出,LeCun也激情转发:这领域确实很火。 所以,AI求解偏微分方程的优势是什么,这一基准具体提出了哪些评估方法?偏微分方程(PDE,Partial Differential Equation),是一个生活中常见的方程。 包括预报天气、模拟飞机空气动力、预测疾病传播模型,都会用到这个方程。 消掘目前北大数学系“韦神”韦东奕的研究方向之一,就是流体力学中的数学问题,其中就包括偏微分方程中的Navier-Stokes方程。 所以,为啥要用AI来求解偏微分方程?训练AI的本质,是找到一种尽可能逼近真实结果的模型。 用AI求解偏微分方程,其实也是找到一种代理模型,来模拟偏微分方程模型。 代理模型,指找到一种近似模型,在计算量更小的同时,确保计算结果与原来的偏微分方程尽可能相似。 这与传统的数值方法求解偏微分方程有着异曲同工之妙。 传统方法往往需要通过将连续问题离散化(类似在一个连续函数上切割出很多小点),来对方程进行近似求解。 然而,传统的数值方法非常复杂,计算量也很大;采用AI方法训练出来的模型,却模拟得又快又好——继2017年华盛顿大学提出PDE-FIND后,2018年谷歌AI又提出了数据驱动求解偏微分方程的方法,都比传统方法要快上不少,让更多人开始关注到AI求解偏微分方程这一领域。 2019年,布朗大学应用数学团队提出一种名叫PINN (物理激发的神经网络)的方法,彻底打开了AI在物理学领域的广泛应用。 这篇论文在理论上虽然没有PDE-FIND和谷歌AI的方法突破性强,却给出了非常完整的代码体系,使得开发人员很容易上手,让更多研究者开发出了不同的PINN,如今它也成为AI物理最常见的框架和词汇之一。 去年加州理工大学和普渡大学团队发表的一项研究,更是将偏微分方程计算时间从传统求解的18个小时降低为1秒钟。 这篇论文提出了一种名为FNO (傅里叶神经算子)的方法,基于傅里叶变换给神经网络加上“傅里叶层”,进一步节省了近似模拟算子的计算量。 除此之外,也有不少研究人员通过训练一些经典AI模型,来求解偏微分方程,如U-Net等。 不过,无论是FNO、U-Net还是PINN,都还是侍桥誉基于各自给出的基准来评估AI计算偏微分方程的效果。 有没有一个更统一、更通用的框架来评估这个领域的新突破?在这样的背景下,研究人员提出了一种名叫PDEBench的基准。 首先是基准中包含的数据集,目前这些数据集已经全部归纳到GitHub中:这里面包括不少经典偏微分方程问题,如Navier-Stokes方程,达西流模型、浅水波模型等等。 随后,PDEBench提出了几个指标,来从不同角度更全面地对AI模型进行评估。 最后,PDEBench还包含了几种经典模型的预训练模型代码,并将它们作为评估其他模型的基准之一,包括上述提到的FNO、U-Net、PINN等。 例如研究团队将这几个模型分别基于各数据集进行了训练,得出的均方根误差(RMSE)如下,也说明它们在不同偏微分方程问题上的表现并不一样。 除此之外,团队还将数据格式进行了统一,同时针对PDEBench的可扩展性进行了优化,因此任何人都能参与进来,给这一基准加入更多的数据集、或是更多基准模型。 值得注意的是,团队试了试分别在PyTorch和JAX两种框架上运行几种预训练模型,发现JAX的速度大约是PyTorch的6倍。 看来以后搞相关研究可以试试JAX框架了。 作者们来自德国斯图加特大学,欧洲NEC研发中心,还有澳大利亚联邦科学与工业研究组织(CSIRO)旗下的Data61数字创新中心。 Makoto Takamoto,欧洲NEC研发中心高级研老段究员,毕业于京都大学,研究方向是图像处理、图神经网络和科学机器学习。 Timothy Praditia,斯图加特大学博士研究生,研究兴趣是开发基于数据驱动和先验物理知识的神经网络模型。 论文/abs/2210.0718... PDEBench/pdebench/PDE... 参考链接:[1] /Mniepert/st... [2] /s/Rbw2... 易学智能提供人工智能等前沿技术学习的一站式解决方案,从技术交流、原创内容分析、最新资讯到技术培训、视频课,以及GPU资源租赁,应有尽有,助力您的人工智能(AI)的学习与开发。 传送门 /。 现在易学智能针对广大人工智能学习爱好者,开展无套路双十一活动,充值即优惠,1000以上,直接充多少送多少,这里没有微积分,真正的骨折价,还在犹豫什么呢,快把3090薅起来。 【 /recharge?...】

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/30058.html
甲子光年 为什么这款只有345克重的手写AI笔记办公本出圈了
毛主席的惊人笔迹!告诉你轰炸金门的内幕!