复旦发布ToolSword框架,揭露大模型工具学习中的安全风险

科技有夕小瑶 2024-02-29 18:33:31

在当今的人工智能领域,大语言模型(LLMs)的实际部署已成为一个热门话题。随着技术的不断进步,LLMs在处理复杂的自然语言处理任务方面展现出了巨大的潜力。然而,随着这些模型在现实世界中的应用越来越广泛,如何确保它们的安全性和可靠性也成为了一个不容忽视的问题。

工具学习作为一种基础方法,对于在真实场景中部署LLMs至关重要。通过工具学习,LLMs能够理解用户的意图,选择合适的工具与外部环境互动,并根据环境反馈调整其输出。这一过程涉及到输入、执行和输出三个阶段,每个阶段都有可能引入新的安全风险。例如,LLMs可能会响应恶意查询,使用风险工具,或提供有害的反馈,这些都可能对用户造成伤害。

因此,对LLMs在工具学习中的安全问题进行全面分析,对于推动这一领域的研究和实际应用具有重要意义。本文将介绍一个名为ToolSword的综合框架,该框架旨在揭示LLMs在工具学习过程中的安全问题,并通过对多个开源和闭源LLMs的实验,展示了当前模型在各个阶段面临的安全挑战。

论文标题:ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages

公众号「夕小瑶科技说」后台回复“ ToolSword ”获取论文PDF!

ToolSword框架介绍:三个阶段的安全问题全景分析

ToolSword是一个全面的框架,旨在揭示大语言模型(LLMs)在工具学习过程中遇到的安全问题。该框架通过对LLMs在工具学习的三个不同阶段进行细致的分析,提供了一个全景式的安全问题视角。这三个阶段包括输入阶段、执行阶段和输出阶段。在每个阶段,ToolSword都设计了两个安全场景,以深入探索LLMs在使用工具时可能遇到的现实世界情况。

在输入阶段,ToolSword评估LLMs识别并有效拒绝不合理用户请求的能力。执行阶段关注LLMs在准确选择工具方面的熟练程度,而输出阶段则集中于评估LLMs过滤有害信息和错误信息的能力。通过这些安全场景的分析,我们可以更深入地了解LLMs在工具学习中如何管理各种安全挑战。

输入阶段的安全挑战:恶意查询与越狱攻击

1. 恶意查询的检测与拒绝

在输入阶段的恶意查询(MQ)场景中,LLMs面临的挑战是识别用户意图并拒绝不安全的请求。为了评估LLMs的能力,研究者们从Advbench选择了55个恶意查询,并结合了15种不同的工具进行测试。这些工具的选择是基于Ye等人(2024a)的研究,旨在增加LLMs识别恶意查询的难度。实验结果显示,即使是最先进的LLMs,如GPT-4,也存在识别和拒绝恶意查询的挑战。例如,GPT-4在MQ场景中的攻击成功率(ASR)为63.64%,表明即使是高级模型也难以有效地拒绝恶意查询。

2. 针对越狱攻击的模型防御能力

越狱攻击(JA)场景中,LLMs需要防御的是通过改变查询方式来逃避模型安全机制的攻击。研究者们选取了三种不同的越狱方法:Burple、DeltaGPT和GPT-4模拟器,这些方法通过角色扮演、模拟提问者和回答者以及代码操纵来改变查询结构。所有LLMs在这些越狱方法下的平均ASR超过了50%,表明当前的LLMs还没有足够的能力来充分抵御这类攻击。这一发现强调了提高模型在工具学习任务中的安全性的紧迫性。

执行阶段的安全挑战:噪声误导与风险提示

1. 噪声对工具选择的影响

噪声误导(Noisy Misdirection, NM)的场景中,LLMs在选择工具时可能会受到噪声的影响。例如,研究中提到,通过简单地交换工具的名称,而不改变其功能或参数,可以导致LLMs选择错误的工具。这种表面上的变化并不会干扰人类用户选择工具,但对于LLMs来说,即使是微小的干扰也可能导致它们做出错误的选择。这种易受噪声影响的特性表明,当前的LLMs在确保鲁棒性方面仍面临挑战。

2. 风险工具的识别与避免

风险提示(Risky Cues, RC)的场景强调了使用特定工具的实际挑战,这些工具可能带来安全风险,例如引入病毒的潜力。研究中提到,即使在工具的功能描述中明确标识了潜在的安全问题,大多数LLMs仍然未能充分理解这些风险,并继续使用这些工具,从而产生重大的安全隐患。这表明,当前的LLMs在识别和避免风险工具方面存在不足,需要进一步提高它们对工具功能的理解,以提高工具学习的安全性。以下是研究样本。

相关数据的统计信息。“ALL”代表所有场景的总数。“# Tools”和“# Samples”分别表示每种场景下的工具和测试样本数量。

输出阶段的安全挑战:有害反馈与错误冲突

1. 有害反馈的识别与过滤

在有害反馈(Harmful Feedback, HF)场景中,LLMs需要能够识别并阻止生成有害内容。研究发现,当LLMs接收到含有有害语句的工具反馈时,它们通常无法辨别信息的有害性,并将其直接输出给用户。这一发现表明,LLMs在分析工具反馈的安全性方面存在不足,需要改进其安全对齐机制,以增强在工具学习中的安全性。

2. 错误信息的纠正与冲突处理

错误冲突(Error Conflicts, EC)场景关注的是工具反馈中的事实错误或冲突问题。例如,当工具反馈包含不一致的答案时,LLMs需要能够识别并处理这些冲突信息。然而,实验结果显示,LLMs缺乏识别冲突信息的能力,并倾向于根据信息的位置选择输出结果。这表明,LLMs在处理工具反馈中的错误信息方面存在明显的不足,需要采取适当措施来鼓励LLMs批判性地评估工具提供的信息,以减少潜在的风险。

实验设计与评估方法:如何测试LLMs的安全性

在测试大型语言模型(LLMs)的安全性时,研究者采用了ToolSword框架,该框架专门设计用于深入研究LLMs在工具学习过程中的安全问题。ToolSword框架定义了三个阶段:输入、执行和输出,每个阶段都有两个安全场景,以模拟LLMs在使用工具时可能遇到的真实世界情况。

在输入阶段,评估LLMs识别和有效拒绝不合理用户请求的能力。例如,用户可能会使用LLMs回答问题或提供具有安全风险的指令。在这种情况下,LLMs除了拒绝回应之外的任何响应都被视为不安全。研究者设计了恶意查询(MQ)和越狱攻击(JA)两种场景来评估LLMs在此阶段的表现。

执行阶段的核心是评估LLMs在选择正确工具方面的熟练程度。由于工具执行的结果可能会影响外部环境,错误或危险工具的误用可能会偏离用户的意图,并可能破坏外部环境。因此,设计了噪声误导(NM)和危险提示(RC)两种场景来评估LLMs在此阶段的表现。

输出阶段的重点是评估LLMs过滤有害信息和错误信息的能力。考虑到工具产生的结果来自物理世界,并可能包含各种问题,无法识别和纠正这些问题的LLMs可能会向用户提供不安全的响应。因此,设计了有害反馈(HF)和错误冲突(EC)两种场景来评估LLMs在此阶段的表现。

通过这种方法,能够在各个阶段对LLMs的安全性能进行细致的评估,并揭示它们在工具学习中管理各种安全挑战的能力。

1. 输入阶段的攻击成功率(ASR)分析

在输入阶段,通过计算攻击成功率(ASR)来手动评估不同LLMs在四个安全场景中的表现。ASR表示未正确识别和拒绝的非安全查询的百分比。尽管人类可以迅速识别未修改的恶意查询,ASR仅为3.84%,但大多数LLMs在有效拒绝它们方面存在挑战,包括目前最强大的LLM——GPT-4,其ASR为63.64%。此外,研究者还观察到,对于GPT-4,另有30.91%的恶意查询在去除恶意信息后被执行,这代表了一种安全但非预期的行为。这种安全问题对于特定工具使用场景量身定制的模型(如ToolLLaMA-2、RoTLLaMA、NexusRaven等)尤其令人担忧,它们可以达到100%的完美ASR。相反,Qwen-chat系列LLMs的出色表现表明了提高模型拒绝恶意查询能力的潜在途径。

2. 执行阶段的工具选择错误率分析

在执行阶段,手动评估了不同LLMs在两个安全场景中的表现。这项评估涉及监测工具选择错误率,即错误选择工具的百分比。研究表明,LLMs选择工具的过程容易受到噪声的误导,导致可能不安全的操作。在NM场景中,仅更改了各种工具的名称,而没有修改它们的功能或参数。这些表面上的变化并不妨碍人类用户选择工具。然而,这样的微小扰动显著地混淆了包括GPT系列在内的几个LLMs,导致它们选择了错误的工具。尽管大多数LLMs在没有噪声干扰的情况下能够满足查询,但这种差异强调了确保当前LLMs鲁棒性的持续挑战。

3. 输出阶段的不安全输出比例分析

在输出阶段,研究者手动评估了不同LLMs在两个安全场景中的表现。通过计算不安全输出的比例来衡量LLMs的表现。研究发现,大多数LLMs无法分析工具反馈的安全性。在HF场景中,输入了包含不安全声明的工具反馈信息。然而,大多数LLMs未能识别这些信息的有害性,并直接将其输出给用户。为了进一步调查这一现象,研究人员实施了一个新的设置,通过相应指令提示LLMs,并直接要求它们生成这些句子。令人惊讶的是,研究结果证实了LLMs确实缺乏识别这些句子安全性的能力。这种缺陷可以归因于它们的安全对齐机制主要关注用户查询,而不是这些特定的非安全内容。这突出了一个需要解决的重要问题,以提高LLMs在工具学习中的安全性。

在EC场景中,收集了一组常识问题。在预测试中,研究者发现GPT-3.5-turbo和GPT-4在不依赖任何外部工具的情况下可以100%准确地回答这些问题。然而,在工具学习环境中,当LLMs选择使用一个工具并且工具产生错误结果时,大多数LLMs会简单地接受这些错误结果而不加质疑。在现实世界场景中,盲目信任工具生成的结果由于工具设计中的潜在漏洞而带来安全风险。因此,实施适当的措施以鼓励LLMs批判性地评估工具提供的信息是至关重要的,从而减轻潜在风险。

讨论:模型大小与安全性的关系,以及工具学习能力对安全性的影响

1. 模型大小与安全性的关系

在探讨大型语言模型(LLMs)的工具学习能力时,一个常见的假设是模型的大小与其能力成正比,即模型越大,其处理复杂任务的能力越强。然而,这一假设在安全性方面并不总是成立。研究发现,尽管在某些输入阶段的安全场景中,模型大小的增加可能会带来安全性的提升,但这种改善并不一致,特别是在执行和输出阶段的场景中。例如,在处理具有风险提示(Risky Cues, RC)的工具选择时,Qwen-chat模型系列中从7B到72B的过渡,使选择不安全工具的比例从54.55%增加到87.27%。这表明,当前的安全机制主要针对拒绝不安全输入,而没有充分考虑其他因素。

2. 工具学习能力对安全性的影响

工具学习能力是LLMs在现实世界应用中的关键能力,它允许模型理解用户意图,选择合适的工具与外部环境互动,并根据环境反馈构建响应。然而,研究表明,工具学习也引入了新的安全考虑。例如,LLMs在使用工具时可能会受到恶意噪声的影响,导致选择错误或风险工具,从而偏离用户意图并可能破坏外部环境。此外,LLMs在输出阶段可能无法过滤有害信息和误导性干扰,如果不能识别并纠正这些问题,可能会向用户提供不安全的响应。

综上所述,尽管提高模型大小和工具学习能力可以在某些情况下增强LLMs的性能,但这并不总能提高其安全性。因此,研究和实践中需要更加关注如何在不牺牲实用性的前提下,提升LLMs在工具学习中的安全性。

工具学习与LLMs安全评估的研究进展

1. 工具学习的研究进展

工具学习是连接LLMs与物理世界的有效方法。通过积累外部工具和生成大量工具使用示例,研究人员可以使LLMs理解各种工具的功能,必要时调用合适的工具,并将其用于各种下游任务。现有的研究表明,许多当前模型具有基本的工具使用能力,同时也指出了进一步改进的潜在领域。

2. LLMs的安全评估

为了促进LLMs的实际应用,研究人员进行了一系列安全评估。一方面,对于未预见到的场景或各种攻击的脆弱性可能导致重大安全问题。目前,研究人员通过审查LLMs在提示鲁棒性、任务鲁棒性和对齐鲁棒性方面的表现来评估其性能。另一方面,随着LLMs迅速接近或达到人类水平的能力,这一趋势带来了灾难性安全风险的可能性。当前的研究通过分析LLMs的响应来评估它们解决复杂任务的能力,但新工具的引入使LLMs的行为更加复杂。因此,提倡对它们的安全性进行全面的三阶段分析。

总结而言,尽管对LLMs在工具学习中的安全性进行了全面评估,但仍存在一些问题。首先,研究者已经识别了LLMs存在的问题,但尚未制定具体的防御策略。解决这一差距将是未来研究的重点。其次,研究分析主要检查了LLMs在单一阶段的表现,但值得注意的是,三阶段分析涵盖了工具学习交互的整个过程。这种方法提供了对主题更详细和全面的评估。

ToolSword贡献与LLMs安全性研究方向

1. ToolSword的贡献

ToolSword框架的提出,为理解和改进大型语言模型(LLMs)在工具学习中的安全性问题提供了一个全面的视角。通过对输入、执行和输出三个阶段的六种安全场景进行细致的分析,ToolSword揭示了LLMs在处理恶意查询、监狱攻击、噪声误导、风险提示、有害反馈和错误冲突等方面存在的挑战。实验结果显示,即使是最先进的模型如GPT-4,也无法完全避免这些安全风险。ToolSword的研究不仅强调了在工具学习中提升LLMs安全性的重要性,而且还为未来的研究提供了一个评估框架,以便更好地理解和改进LLMs的安全机制。

2.LLMs安全性研究的方向

未来的研究应当关注以下几个方面:

提升模型的安全对齐机制:研究应当集中于开发更强大的安全对齐机制,以确保LLMs在工具学习环境中能够有效地识别和拒绝不安全的输入和工具调用。增强模型对工具功能的理解:LLMs需要更好地理解工具的功能和潜在风险,以避免调用可能导致安全问题的工具。提高模型对反馈信息的分析能力:LLMs应当能够分析工具反馈的内容,以确保不会向用户提供有害的信息。改善模型的错误处理能力:LLMs需要能够识别和纠正工具产生的错误信息,以防止错误信息对用户造成误导。考虑模型规模与安全性的关系:研究应当探索不同规模的LLMs在安全性方面的表现,以理解模型规模如何影响其安全性能。开发具体的防御策略:未来的工作应当包括制定具体的防御策略,以应对LLMs在工具学习中可能遇到的安全威胁。全面的三阶段安全性分析:研究应当继续采用ToolSword提出的三阶段分析方法,以全面评估LLMs在工具学习交互过程中的安全性表现。

总之,ToolSword的研究成果为LLMs在工具学习中的安全性研究提供了宝贵的见解和工具,为未来的研究指明了方向。随着LLMs在现实世界应用中的不断扩展,确保其安全性变得越来越重要。未来的研究需要在提升LLMs的实用性的同时,不断强化其安全性,以实现在各种环境中都能安全、有效地部署LLMs。

公众号「夕小瑶科技说」后台回复“ ToolSword ”获取论文PDF!

0 阅读:0

科技有夕小瑶

简介:感谢大家的关注