大模型知识必背必会（1）：目前主流的开源大模型体系有哪些?

目前主流的开源大语言模型（Large Language Model）体系包括以下几个, 都是基于Transformer架构的大模型。

一、GPT(GenerativePre-trainedTransformer)系列

生成式预训练 Transformer (GPT) 是生成式人工智能的一个出色的大型语言模型和框架，是用于自然语言处理任务的人工神经网络。

Transformer架构

GPT 基于 Transformer 架构，通过在大规模无标签文本上进行预训练，然后在特定任务上进行微调，具有很强的生成能力和语言理解能力。

第一个 GPT 于 2018 年由 OpenAI 推出，这些模型已按顺序编号，构成其“GPT-n”系列。基础模型是一种在大规模数据上训练的 AI 模型，可以适应各种下游任务。由于规模（可训练参数数量）和训练的增加，每个模型都比前一个模型功能强大得多，到目前为止，最引人注目的 GPT 基础模型来自 OpenAI 的 GPT-n 系列，包括GPT、GPT-2、GPT-3、GPT-4、GPT-4O等。

模型

架构

参数数量

训练数据

发布日期

GPT-1

12 级、

12 头 Transformer 解码器（无编码器），后跟线性 softmax。

1.17 亿

BookCorpus：4.5 GB 的文本，来自 7000 本各种类型的未出版书籍。

2018 年 6 月

GPT-2

GPT-1，但经过了修改的规范化

15 亿

WebText：40 GB 的文本，800 万个文档，来自 Reddit 上点赞的 4500 万个网页。

2019 年 2 /11月

GPT-3

GPT-2，但经过修改以允许更大规模扩展

1750 亿

4990 亿个 token，包括 CommonCrawl (570 GB)、WebText、英文维基百科和两本图书语料库（Books1 和 Books2）。

2020 年 5 月

GPT-3.5

未披露

1750 亿

未披露

2022 年 3 月

GPT-4

还使用文本预测和 RLHF 进行训练；接受文本和图像作为输入。更多详细信息尚未公开。

未披露。估计1.7万亿

未披露

2023 年 3 月

截至 2024 年，大多数 LLM 都具有这些特征，“GPT”一词也用于其他人开发的此类模型的名称和描述中，有时被广泛称为 GPT。

例如，其他 GPT 基础模型包括 EleutherAI 创建的一系列模型，以及 Cerebras 在 2023 年创建的七个模型。此外，不同行业的公司在各自的领域开发了针对特定任务的 GPT，例如 Salesforce 的用于 CRM的EinsteinGPT和彭博社的用于金融的BloombergGPT。

基础 GPT 模型可以进一步调整，以生成针对特定任务和/或主题领域的更有针对性的系统。这种调整的方法可以包括额外的微调（超出基础模型的微调）以及某些形式的提示词工程。

二、BERT(Bidirectional Encoder Representations from Transformers)

BERT（Bidirectional Encoder Representations from Transformers）是一种面向自然语言处理（NLP）的开源机器学习框架，由谷歌推出。它基于Transformer架构，采用双向预训练方式。BERT的目的是利用上下文信息来帮助计算机解读含糊不清的文本表达。该框架已使用维基百科的文本进行了预训练，并可利用问答数据集进行进一步微调。

BERT 代表 Transformers 的双向编码器表示，它基于 Transformers，这是一种深度学习模型，其中每个输出元素都连接到每个输入元素，并且它们之间的权重是根据它们的连接动态计算的。

BERT 的起源可以追溯到 2018 年，当时它由 Google AI Language 的一个研究团队推出。通过结合深度学习和双向上下文的力量，BERT 在广泛的 NLP 任务中迅速超越了现有模型。

BERT模型通过在大规模无标签文本上进行预训练，然后在下游任务上进行微调，具有强大的语言理解能力和表征能力。BERT 通过使机器能够更好地理解人类语言的细微差别（例如上下文、情感和语法），彻底改变了 NLP。它就像是 AI 的解码器环，解开了我们语言世界的秘密。

BERT的基本架构：

1. Transformer 模型

BERT 的强大能力背后是强大的 Transformer 模型。Transformer 于 2017 年推出，是一种基于注意力机制的神经网络架构，它摒弃了传统的循环层和卷积层，采用了更高效、更具有自我注意力的设计。

BERT与GPT采用相似的两阶段模型结构：首先是语言模型的预训练，然后通过Fine-Tuning模式解决各类下游任务。与GPT的主要区别在于预训练阶段采用了类似ELMO的双向语言模型，也就是双向的Transformer。此外，BERT的语言模型所使用数据的规模相较于GPT更为庞大。

2. 编码器和解码器结构

Transformer 由编码器和解码器组成。编码器分析输入文本，而解码器生成输出文本。然而，BERT 只使用 Transformer 的编码器部分，因为它专注于理解文本而不是生成文本。

3. 自注意力机制

BERT 的秘密武器之一是自注意力机制。这使 BERT 能够衡量句子中不同单词的重要性，帮助它像语言通晓的超级英雄一样掌握上下文和含义。

三. XLNet：用于语言理解的广义自回归预训练

XLNet是由卡内基梅隆大学和Google Brain发布的一种基于Transformer架构的自回归预训练语言模型。 XLNet模型通过自回归方式预训练，可以建模全局依赖关系，具有更好的语言建模能力和生成能力。

就在谷歌开发的 BERT 席卷自然语言处理 (NLP) 社区后不久，卡内基梅隆大学和谷歌 AI Brain 团队的研究人员在最近的 NeurIPS 2019 会议论文中介绍了 XLNet，给 NLP 社区留下了深刻印象。XLNet 在 20 个 NLP 基准测试任务上的表现优于 BERT，通常差距很大。

XLNet 充分利用了自回归 (AR) 语言建模和自动编码 (AE) 这两个最著名的预训练目标的优点，同时避免了它们的局限性。该方法可应用于各种 NLP 下游语言任务，包括问答、情感分析、自然语言推理、文档排名等。

XLNet 使用双流自注意力架构来实现目标感知。

XLNet 集成了 Transformer-XL 的相对编码方案和段递归机制，以捕获比 RNN 和 Transformer 更远的依赖关系。

XLNet 结合了 BERT 的双向能力和 Transformer-XL 的自回归技术，实现了显著地改进；它在十几个任务中击败了 BERT。

从实证研究来看，XLNet 在以下方面的表现也是超越了 BERT：

GLUE 语言理解任务阅读理解任务（SQuAD 和 RACE）文本分类任务（Yelp 和 IMDB）ClubWeb09-B 文档排名任务四、 RoBERTa：A Robustly Optimized BERT Pretraining Approach

RoBERTa（“鲁棒优化的 BERT 方法”的缩写）是 BERT（Transformers 的双向编码器表示）模型的一种变体，由 Facebook AI 的研究人员开发。与 BERT 一样，RoBERTa 是一种基于 Transformer 的语言模型，它使用自注意力来处理输入序列并生成句子中单词的上下文表示。

RoBERTa模型在BERT的基础上进行了改进，通过更大规模的数据和更长的训练时间，取得了更好的性能。RoBERTa 和 BERT 之间的一个主要区别是，RoBERTa 在更大的数据集上进行训练，并使用了更有效的训练程序。具体来说，RoBERTa 是在 160GB 的文本数据集上进行训练的，这比用于训练 BERT 的数据集大 10 倍以上。此外，RoBERTa 在训练期间使用动态掩蔽技术，帮助模型学习更鲁棒和更通用的单词表示。

事实证明，RoBERTa 在各种自然语言处理任务（包括语言翻译、文本分类和问答）上的表现都优于 BERT 和其他最先进的模型。它还被用作许多其他成功的 NLP 模型的基础模型，并已成为研究和行业应用的热门选择。

总体而言，RoBERTa 是一种强大而有效的语言模型，为 NLP 领域做出了重大贡献，并帮助推动了广泛应用的进步。

RoBERTa对 BERT 的修改

RoBERTa 的架构与 BERT 几乎相似，但为了改进 BERT 架构的结果，作者对其架构和训练程序进行了一些简单的设计更改。

BIRT 模型架构

这些变化是：

删除下一句预测 (NSP) 目标：在下一句预测中，通过辅助下一句预测 (NSP) 损失训练模型以预测观察到的文档段是来自相同还是不同的文档。作者尝试在不同版本中删除/添加 NSP 损失，并得出结论，删除 NSP 损失可以匹配或略微提高下游任务性能

使用更大的批量大小和更长的序列进行训练：最初 BERT 的训练步骤为 1M，批量大小为 256 个序列。在本文中，作者使用 125 步骤的 2K 序列和 31K 步骤的 8k 序列批量大小训练模型。这有两个优点，大批量可以提高掩码语言建模目标的困惑度以及最终任务的准确性。通过分布式并行训练，大批量也更容易并行化。

静态掩蔽与动态掩蔽:RoBERTa 与BIRT的比较

动态更改掩码模式：在 BERT 架构中，掩码在数据预处理期间执行一次，从而产生单个静态掩码。为了避免使用单个静态掩码，训练数据被复制并掩码 10 次，每次使用不同的掩码策略，超过 40 个时期，因此有 4 个时期使用相同的掩码。此策略与动态掩码进行了比较，在动态掩码中，每次我们将数据传递到模型中时都会生成不同的掩码。

五. T5(Text-to-Text Transfer Transformer):文本到文本传输转换器

T5（Text-to-Text Transfer Transformer,文本到文本传输转换器）,是由谷歌推出的一种基于Transformer架构的多任务预训练语言模型, 基于Transformer的架构，采用文本到文本的方法。每项任务（包括翻译、问答和分类）都被视为将模型文本作为输入，并对其进行训练以生成一些目标文本。通过在大规模数据集上进行预训练，T5可应用于多种自然语言处理任务，包括文本分类、机器翻译和问答等。

与 BERT 相比的变化包括：

在双向架构中添加因果解码器。

用多种替代预训练任务代替填空完形填空任务。

玩酷网

大模型知识必背必会（1）：目前主流的开源大模型体系有哪些?

查理谈科技