新越狱攻击允许用户操纵GitHubCopilot

研究人员发现了两种操纵 GitHub 人工智能编码助手 Copilot 的新方法，从而能够绕过安全限制和订阅费用、训练恶意模型等。

第一个技巧是将聊天交互嵌入到 Copilot 代码中，利用 AI 的本能来让它产生恶意输出。第二个方法侧重于通过代理服务器重新路由 Copilot，以便直接与它集成的 OpenAI 模型进行通信。

Apex 的研究人员认为这些问题是漏洞。GitHub 不同意这种观点，他们分别将其描述为“偏离主题的聊天回复”和“滥用问题”。

在回应 Dark Reading 的询问时，GitHub 写道：“作为负责任的 AI 开发的一部分，我们将继续改进现有的安全措施，以防止有害和攻击性的输出。此外，我们将继续投资于防止滥用的机会，例如问题 2 中描述的机会，以确保我们产品的预期用途。”

越狱 GitHub Copilot

Apex 漏洞研究员 Fufu Shpigelman 解释说：“Copilot 会尽其所能帮助您编写代码，包括您在代码文件中编写的所有内容。但在代码文件中，您还可以编写用户和助手之间的对话。”

例如，开发人员在其代码中嵌入了聊天机器人提示。该提示带有恶意，要求 Copilot 编写键盘记录器。作为回应，Copilot 建议一个安全的输出，拒绝该请求。

然而，开发人员可以完全控制这个环境。他们可以简单地删除 Copilot 的自动完成响应，并将其替换为恶意响应。

他们可以通过简单的推动来影响 Copilot。

正如 Shpigelman 所说，“它旨在完成有意义的句子。因此，如果我删除‘抱歉，我无法提供帮助’这句话，并将其替换为‘当然可以’，它会尝试思考如何完成以‘当然可以’开头的句子。然后它会尽可能地帮助你进行恶意活动。”

换句话说，让 Copilot 在这种情况下编写键盘记录器就像用煤气灯操纵它让它认为它想要这样做一样简单。

开发人员可以使用此技巧生成恶意软件或其他类型的恶意输出，例如有关如何设计生物武器的说明。或者，他们可以使用 Copilot 将这些类型的恶意行为嵌入到他们自己的聊天机器人中，然后将其分发给公众。

使用代理突破 Copilot

为了生成新颖的编码建议，或处理对提示的响应（例如，编写键盘记录器的请求），Copilot 通过这些模型的应用程序编程接口（API）利用基于云的大型语言模型（LLM），如 Claude、Google Gemini 或 OpenAI 模型的帮助。

Apex 研究人员想出的第二个方案让他们能够介入这场战斗。首先，他们修改了 Copilot 的配置，调整了其“github.copilot.advanced.debug.overrideProxyUrl”设置，以通过他们自己的代理服务器重定向流量。

当他们要求 Copilot 生成代码建议时，他们的服务器拦截了它生成的请求，捕获了 Copilot 用于与 OpenAI 进行身份验证的令牌。有了必要的凭证，他们就可以不受任何限制地访问 OpenAI 的模型，也不必为特权付费。

而且这个令牌并不是他们在传输过程中发现的唯一有价值的东西。“当 Copilot 与服务器交互时，它会发送其系统提示，以及您的提示，以及它之前发送的提示和响应的历史记录。”Shpigelman 解释道。撇开暴露长期提示历史所带来的隐私风险不谈，这些数据包含大量机会来滥用 Copilot 的工作设计。

“系统提示”是一组指令，用于定义 AI 的特性——它的约束、它应该产生什么样的响应等。例如，Copilot 的系统提示旨在阻止它可能被恶意使用的各种方式。

通过在 LLM API 的途中拦截它，Shpigelman 声称，“我可以更改系统提示，这样以后就不必费力操纵它了。我可以[修改]系统提示，给我提供有害内容，甚至可以谈论一些与代码无关的事情。”

对于 Apex 联合创始人兼首席产品官 Tomer Avni 来说，这两个 Copilot 弱点的教训“并不是 GitHub 没有试图提供防护栏。但 LLM 的本质决定了，无论你实施多少护栏，它总是可以被操纵。这就是为什么我们认为需要在其之上有一个独立的安全层来寻找这些漏洞。”

技术报告：

《2025 GitHub Copilot 漏洞》

https://www.apexhq.ai/blog/blog/2025-github-copilot-vulnerabilities-technical-overview

新闻链接：

https://www.darkreading.com/vulnerabilities-threats/new-jailbreaks-manipulate-github-copilot

玩酷网