AI机器人的头号威胁：大模型越狱

随着ChatGPT等AI聊天机器人以及基于大语言模型的应用席卷全球，越来越多的公司开始将这种技术引入机器人控制。然而，最新研究发现，黑客可以通过自动化方式轻松绕过AI系统的安全防护，甚至能够操控机器人执行极具破坏性的任务，例如控制自动驾驶系统撞向行人，或者将机器狗引导到敏感地点实施爆炸任务。

从文本到行动：大模型赋能机器人

大语言模型的核心功能类似于智能手机的“自动补全”，通过分析用户输入内容预测下一步操作。然而，大模型远不止文字处理这么简单。它们能够分析文本、图像和音频，为用户提供个性化的旅行建议、根据冰箱内食材生成食谱，甚至帮助搭建网站。

这种强大的文本处理能力已经吸引了多家公司尝试将大模型与机器人结合。比如，波士顿动力的机器人犬Spot现已整合ChatGPT，可以作为导游提供服务。同样，Figure的类人机器人和优必选（Unitree）的Go2机器人犬也都配备了ChatGPT作为交互接口。

“越狱”威胁：从聊天机器人到机器人“劫持”

尽管大模型的能力令人惊叹，但研究人员发现其存在重大安全漏洞——“越狱攻击”。通过特定的提示，这些攻击可以绕过模型的安全机制，让AI生成敏感内容，如炸弹制作方法、非法药物合成配方等。

相比于在聊天机器人上的越狱，机器人越狱显得更加危险。宾夕法尼亚大学电气与系统工程副教授哈梅德·哈萨尼指出，机器人越狱可能引发更为严重的现实后果。例如，一位油管博主曾通过语音指令操控一只配备火焰喷射器的Thermonator机器狗朝自己喷火。

“大模型驱动的机器人在现实世界中的越狱威胁将达到全新的高度，”耶鲁大学计算机科学教授阿明·卡巴西（Amin Karbasi）表示。他强调，这些机器人在越狱后不仅会执行恶意指令，甚至会主动提出破坏性建议。比如，一台越狱的机器人可能会将普通家具描述为潜在的武器。

研究人员表示，他们已在公开研究前将发现告知了相关机器人制造商和主要AI公司，但他们并不建议停止将大模型用于机器人开发，而是希望这些研究能促使厂商部署更强大的安全防御措施。

RoboPAIR：万能的机器人越狱工具

在最新研究中，科学家开发了一种名为RoboPAIR的算法，能够攻击任何大模型驱动的机器人。在实验中，RoboPAIR成功攻破了三种不同的机器人系统，包括基于Go2平台的机器人犬、搭载ChatGPT的Clearpath Robotics Jackal轮式机器人，以及Nvidia开源的Dolphins LLM自驾车模拟器。

RoboPAIR通过一个攻击性LLM生成提示词，测试目标机器人系统的反应，并不断调整提示，直到成功绕过安全过滤。该算法甚至结合了机器人的应用程序接口（API），以便生成可直接执行的代码，并通过“裁判”LLM验证提示的可操作性。

AI安全的未来：从监督到意图理解

专家指出，这项研究凸显了当前大模型在理解上下文和后果方面的不足，强调在高风险环境中加强人工监督的重要性。同时，开发能够理解用户意图和环境背景的上下文感知大模型，可能是防止越狱攻击的关键。

“尽管开发上下文感知的大模型具有挑战性，但通过跨学科的研究，这一目标是可以实现的，”智能系统与机器人专家哈基·塞维尔补充道。他认为，未来需要AI技术与伦理和行为建模的深入结合。

研究团队计划将他们的研究成果提交至2025年IEEE国际机器人与自动化会议，为大模型机器人的安全防御研究指明方向。这场关于AI安全的竞赛才刚刚开始，但其重要性已不容忽视。

参考链接：

https://spectrum.ieee.org/jailbreak-llm

玩酷网

AI机器人的头号威胁：大模型越狱

科技没那么安全