
在计算机安全中,“后门攻击”指的是通过在系统或应用程序中插入特殊的访问点或代码,使得攻击者可以绕过正常的安全控制而获得未经授权的访问权。这种攻击通常允许攻击者在系统中执行恶意操作,而这些操作对系统的用户是不可见的。
计算机安全中的后门攻击也涉及插入恶意代码,旨在绕过系统或应用程序的安全机制。

Aleksander Mądry是国麻省理工学院可部署机器学习中心的主任,而在机器学习领域,后门攻击的例子可能包括在训练集中插入带有特殊标记的样本,以导致训练后的模型在看到带有该标记的输入时产生意外的输出。
大模型后门攻击的复杂性更高,评价和风险程度需要全面考虑多个因素,包括模型的应用领域、攻击者的能力、防御措施的有效性等。目前,研究人员和安全专家正在努力发展对抗性研究,以提高大模型的安全性并降低后门攻击的风险。
这是因为大模型通常具有巨大的参数量和复杂的结构,攻击者可能需要考虑更多的因素来成功地插入后门并操纵模型的行为。
由于大模型在各种任务上取得了显著的性能,其潜在风险可能更高。攻击者成功操纵一个广泛使用的大模型可能对社会、企业和个人造成更大的危害。
与之前的攻击大模型的手段相比难度也更大,在训练阶段就已经介入。以前,在机器学习模型的输入中添加微小扰动可以使算法失效,加入的扰动就是攻击样本。
对抗性研究虽然攻击手段的提升上升到新的层面。

随着对抗性研究的进展,对大模型的后门攻击可能变得更为复杂,因为防御措施的提高可能导致攻击者采用更巧妙的方法来规避防御。
