就在AI竞争白热化的关键时期,BBC的最新研究公布:AI在回答新闻或时事类问题时会产生扭曲事实、不准确或误导性内容。
BBC在2月发布的研究报告中表示,全球多家知名AI引擎(包括OpenAI的ChatGPT、微软的Copilot、谷歌的Gemini和Perplexity AI)生成的新闻摘要均存在上述问题,无一幸免。

BBC公开了实验过程,研究人员要求这些AI工具以BBC的文章为来源回答100个问题。然后,让专门研究相关主题领域的BBC记者对答案进行评分。
结论是,大约五分之一的答案在数字、日期或陈述方面引入了事实错误,几乎一半的回答被判定为“存在某种形式的重大问题”。
这些错误包括,里希·苏纳克仍然是首相,尼古拉·斯特金仍然是苏格兰的首席大臣,以及伊斯梅尔·哈尼耶在伊朗被暗杀数月后成为哈马斯领导层的一员等等。

关于产生这些错误的原理,研究人员的观点是:“AI难以区分观点和事实”。所以在实验阶段,AI才会多次将意见或过时的档案误认为是最新事实。
最后,BBC通过采集到的所有样本对比,得出结论,“微软Copilot和谷歌Gemini比OpenAI的ChatGPT和Perplexity存在更严重的问题。”当然,Apple Intelligence早在1月就已经翻车,该项研究也是在Apple多次生成虚假新闻摘要之后进行,所以对比中并没有它。

事后,这些发现促使BBC的新闻首席执行官黛博拉·特内斯警告说:“这些AI工具正在玩火,很有可能破坏公众对事实的信任。”
必须承认,BBC的研究对AI在「人文领域」的发展有很大帮助,此前关于AI的研究都停留在“理工科”领域,现在终于开始审视AI生成的内容准确性了。

在BBC的研究结果公布之后,OpenAI的发言人第一时间表示,他们尊重所有网络媒体内容,如果有需要,网站可以使用robots.txt来管理OAI-SearchBot,拒绝AI使用该页面。robots.txt是网页代码中的一条指令,它可以要求AI不要在搜索结果中使用该页面。
无论如何,这项研究结果都将产生巨大的涟漪,尤其在AI创作领域更为明显。但是,有些局限性似乎很难改善,比如如何用代码来区分观点和事实,毕竟连人类都难以区分二者。