10月16日,有家长发现在科大讯飞学习机中,一篇标题为《蔺相如》作文含有诋毁伟人、扭曲历史等违背主流价值观的内容。
科大讯飞回应,发现问题后,已第一时间核实并下架了该作文,同时将该第三方内容全部下线,并处分了公司相关负责人,同时在内部制定了更加严格的内容审核机制,以确保今后杜绝此类问题。
但是“毒教材”事件对科大讯飞还是产生了极大的负面影响。首先,科大讯飞的股价大幅下跌,市值蒸发达120亿元。这充分表明投资者对科大讯飞的经营能力和品牌形象产生了质疑。其次,该事件引发了公众对科大讯飞产品质量和内容审核机制的质疑,对其声誉和信誉造成了严重损害。
此次事件的原因按照科大讯飞的说法,“毒教材”内容是第三方引入讯飞学习机的。正因为互联网上的内容良莠不齐,而AI公司又不断在互联网上抓取训练数据,无论是内容审查过失,或是被人故意污染,结果都将可能导致大语言模型生成有害内容。
这就是“传说”中的数据投毒,数据投毒是指有意或恶意地向数据集中加入虚假、恶意或有害的数据,以操控、损害或欺骗机器学习模型的性能和输出结果。这是一种潜在的危险行为,可以在很大程度上破坏人工智能系统的稳定性和可靠性。
数据投毒:理论基础数据投毒并非新兴概念,早在2016年,微软公司就曾遭遇过数据投毒事件。当时,该公司推出一款名为Tay的聊天机器人,意图通过与网友互动学习人际交往技巧。然而,由于一些不良分子的恶意滥用,他们向Tay提供了大量的不适当言论,导致这款机器人的对话数据集被严重污染。最终,微软不得不紧急下线Tay,以阻止其继续学习和传播不当内容。
数据投毒的技术原理数据投毒的技术原理主要包括五种方式:
添加虚假数据:攻击者会向训练数据中添加虚假或不准确的数据,以干扰模型的训练。
数据偏差:攻击者会故意引入数据偏差,使模型偏向某些特定类别或结果。
对抗性样本:攻击者会生成对抗性样本并将其添加到训练数据中,使模型更容易受到攻击。
数据污染:攻击者会通过向数据中加入噪音或干扰来降低数据质量。
标签错误:攻击者会更改或错误地标记训练数据的标签。
以上五种方式都可以让攻击者在一定程度上操控机器学习模型的性能和输出结果。
数据投毒的影响数据投毒的危害可能远远超过您的想象。
如果发生在自动驾驶汽车领域,可能导致车辆产生错误的安全驾驶决策,引发严重的交通事故;如果发生在智慧医疗诊断领域,可能会造成医疗图像分析失误或疾病诊断错误,严重危及患者的生命安全;如果发生在国家军事安全领域,可能导致对国家机密信息的入侵或破坏,危及国家安全,甚至诱导自主性武器错误发起攻击,造成灾难性的后果。
老斜说总的来说,数据投毒是一种危害极大的恶意行为,能够严重影响机器学习模型的性能和输出结果。因此,我们需要提高警惕,及时发现并防范数据投毒行为的发生。同时,我们也要加强相关的法律法规建设,严厉打击数据投毒行为,保障人工智能系统的安全和稳定性。