ChatGPT是如何思考的？为什么大模型幻觉会导致一本正经胡说八道

上一篇粗略罗列了几个人工智能名称，作为非专业人士，我们其实不需要知道太多，仅需要一个大概就好，很多人会比较好奇AI是怎么思考出结果的？难道真的像科幻片里一样，像人一样吗？往下看吧。

语言大模型的崛起

近年来,以ChatGPT为代表的大语言模型引发了一场人工智能革命。这些模型能够写文案、阅读论文、编写代码,几乎无所不能,成为了有史以来最接近人类智能的AI系统。随着ChatGPT的成功,国内外科技公司纷纷跟进,各种大模型如雨后春笋般涌现,让人类第一次触摸到了通用人工智能(AGI)的门槛。

那么,这些语言大模型是如何获得如此神奇的能力的呢?要理解这一点,我们需要先了解它们的工作原理。

大模型的工作原理

与人类说话的方式不同,大模型采用了一种独特的语言生成方法。当我们说话时,通常会先在脑中组织好整个句子的大致结构,然后按照语法规则将词语串联成句。但大模型是一个字一个字地往外蹦,每说出一个字就根据前面的内容预测下一个该说什么,就像在玩一个高级版的"接龙"游戏。

这种方法在技术上被称为"下一个词预测"或"自回归生成"。乍一听很简单,但其实蕴含着对语言深层规律的理解。比如说"这本书太___了",大模型会根据上下文预测这里该填"难"或"枯燥"之类的词。看似简单,但要做对这个预测,模型必须理解"书"、"太"等词的含义,以及整个句子的语法结构和语境。

大模型学习过程是什么呢

大模型就是通过不断练习这种预测来学习语言规律的。在训练过程中,它们被输入了海量的文本数据,包括书籍、新闻、网站等各种人类语言资料。这些数据量之大令人咋舌,据估计,像GPT这样的模型使用的语料可能达到了TB级别,相当于上亿本《三国演义》那么多。这远远超过了一个人几百辈子能读的书籍量。

在这个过程中,模型逐渐掌握了词语的含义、语法规则,甚至一些常识性知识。它学会了在不同语境下选择合适的词语,理解了词语之间的关联和搭配规则,甚至能够推断出一些隐含的信息。

运行大模型需要的计算规模

除了数据量大,大模型的计算量也是惊人的，这也是大模型之“大”的一个方面。据估计,GPT-3生成一个字需要调用1750亿个参数,进行10的15次方次浮点运算。如果用普通笔记本电脑来运行,可能要半小时才能生成一个字。而GPT-4的参数量据说比GPT-3还要多出近10倍。

训练这样的模型更是一项烧钱的工程。GPT-4的训练过程据说让超级计算机夜以继日地运算了好几个月,花费至少上亿美元。这也解释了为什么只有少数科技巨头才有能力开发如此大规模的语言模型。

模型的局限性

尽管如此强大,大模型也存在一些明显的局限性。最主要的问题是,它们只是在符号层面上玩文字游戏,并不真正理解现实世界。正如一位专家所说,大模型就像是被困在柏拉图洞穴中的囚徒,只能看到现实世界在洞壁上的投影,而无法直接接触真实世界。

这导致了一个被称为"幻觉"(Hallucination)的现象,大模型的幻觉（Hallucination）是指模型生成的内容与现实世界事实或用户输入不一致的现象。这种现象在大型语言模型（如GPT-3、BERT等）中尤为常见，主要分为两大类：事实性幻觉和忠实性幻觉。

所以有时会感觉大模型在编造一些看似合理但实际并不存在的信息。特别是在被问及一些专业或具体的问题时,它可能会自信满满地给出完全错误的答案。也就是在一本正经的胡说八道。

另外,大模型也很难完成一些看似简单的任务,比如说出恰好20个字的句子。这是因为它们缺乏对语言单位的精确计数能力。

应用前景

尽管存在这些局限,但对于大多数日常问题,大模型已经可以给出相当不错的回答。它们成为了方便好用的知识助手,可以回答各种问题,提供各种建议,甚至协助完成一些创意性的工作。

为了让模型更好地满足人类需求,研究人员还开发了一种叫做RLHF(基于人类反馈的强化学习)的技术。简单来说,就是让模型的回答越来越接近人类期望的那种有帮助、友善的方式。如果模型表现好,就给予奖励;表现不好,就给予惩罚。通过这种方式,模型的表现可以不断优化。

未来展望

随着研究的深入,我们可能会看到更加先进的AI系统。也许未来的AI不再仅仅是在语言符号中玩接龙游戏,而是能够对这个世界有更深刻的理解,成为人类更得力的助手。

一些有趣的现象已经开始出现。比如,研究人员发现,当模型的参数和训练数据增加到一定程度时,会突然出现一种叫做"涌现"的现象。模型会突然从一个"傻瓜"状态跃升到能解决复杂问题的"天才"状态。这种现象的原理目前还不太清楚,是一个有待深入研究的课题。

另外,通过不同的"提示词"(Prompt),似乎能够大大改变模型的表现。这也是一个值得进一步探索的方向。

总的来说,大语言模型通过海量数据训练和巧妙的算法,在语言理解和生成方面取得了惊人的进步。虽然还存在一些局限,但它们已经成为了改变我们生活和工作方式的重要工具。随着技术的不断发展,我们有理由期待AI能在未来带来更多令人兴奋的可能性。这场由语言模型引发的AI革命,才刚刚开始。

玩酷网