一张图看Transformer架构的基本概念。databites.tech绘制1

一张图看Transformer架构的基本概念。databites.tech绘制

1. Transformer是什么？

Transformer是一种神经网络架构，特别擅长于理解和生成序列数据中的上下文。

与传统的RNN（循环神经网络）和CNN（卷积神经网络）不同，Transformer依赖于**自注意力机制（Self-Attention）**来处理输入，不再使用RNN的时间顺序或者卷积操作。

它是一种“序列到序列模型”，即将输入序列转换为另一种输出序列，例如将西班牙语句子翻译成英语。

2. 将Transformer看作一个黑箱

可以将Transformer看作一个“黑箱”，其中输入一个句子（例如西班牙语句子“¿De quién es?”），然后经过处理，输出句子的翻译（例如“Whose is it?”）。

在此阶段，我们并不关心内部具体如何处理输入，只看输入和输出的转换。

3. 编码器和解码器架构（Encoder/Decoder Architecture）

编码器（Encoder）：将输入的句子转化为向量表示，即处理句子结构，将其转化为能捕捉句子本质的格式。

例如，将西班牙语句子“¿De quién es?”转化为机器可以理解的矩阵表示。

解码器（Decoder）：将编码器产生的表示作为输入，并根据该表示生成输出，逐步产生翻译后的句子。

在这里，它将编码后的信息翻译成英文句子“Whose is it?”。

4. Transformer的内部架构

多层堆叠结构：编码器和解码器各自由多层神经网络组成。每个编码器层处理输入后，将结果传递给下一个编码器层，同样解码器也是逐层接收上层输出。

自注意力机制和前馈网络（Self-Attention and Feed-Forward Network）：编码器和解码器的每一层都包含自注意力机制和前馈神经网络。自注意力机制可以捕捉输入中不同位置之间的依赖关系。

玩酷网