玩酷网

电子书<大模型理论基础> 主要作者为哈工大博士生陈安东datawhalechin

电子书 主要作者为哈工大博士生陈安东

datawhalechina.github.io/so-large-lm/

本书内容以斯坦福大学大规模语言模型课程为基础,结合来自开源贡献者的补充和完善,以及对前沿大模型知识的及时更新,为读者提供较为全面而深入的理论知识和实践方法。

本课程的结构如同一个洋葱:

⭐大型语言模型的行为:我们从外层开始,这里我们只能通过黑匣子API访问模型(就像我们迄今为止所做的)。我们的目标是理解这些被称为大型语言模型的对象的行为,就像我们是研究生物体的生物学家一样。在这个层面上,许多关于能力和危害的问题可以得到回答。

⭐大型语言模型的数据背后:然后我们深入研究用于训练大型语言模型的数据,并解决诸如安全性、隐私和法律考虑等问题。即使我们无法完全访问模型,但可以访问训练数据,这为我们提供了有关模型的重要信息。

⭐构建大型语言模型:然后我们进入洋葱的核心,研究如何构建大型语言模型(模型架构、训练算法等)。

⭐超越大型语言模型:最后,我们以超越语言模型的视角结束课程。语言模型只是对词元序列的分布。这些词元可以表示自然语言、编程语言或音频或视觉词典中的元素。语言模型也属于更一般的基础模型类别,这些模型与语言模型具有许多相似的属性。