玩酷网

一张图看Transformer架构的基本概念。databites.tech绘制1

一张图看Transformer架构的基本概念。databites.tech绘制

1. Transformer是什么?

Transformer是一种神经网络架构,特别擅长于理解和生成序列数据中的上下文。

与传统的RNN(循环神经网络)和CNN(卷积神经网络)不同,Transformer依赖于**自注意力机制(Self-Attention)**来处理输入,不再使用RNN的时间顺序或者卷积操作。

它是一种“序列到序列模型”,即将输入序列转换为另一种输出序列,例如将西班牙语句子翻译成英语。

2. 将Transformer看作一个黑箱

可以将Transformer看作一个“黑箱”,其中输入一个句子(例如西班牙语句子“¿De quién es?”),然后经过处理,输出句子的翻译(例如“Whose is it?”)。

在此阶段,我们并不关心内部具体如何处理输入,只看输入和输出的转换。

3. 编码器和解码器架构(Encoder/Decoder Architecture)

编码器(Encoder):将输入的句子转化为向量表示,即处理句子结构,将其转化为能捕捉句子本质的格式。

例如,将西班牙语句子“¿De quién es?”转化为机器可以理解的矩阵表示。

解码器(Decoder):将编码器产生的表示作为输入,并根据该表示生成输出,逐步产生翻译后的句子。

在这里,它将编码后的信息翻译成英文句子“Whose is it?”。

4. Transformer的内部架构

多层堆叠结构:编码器和解码器各自由多层神经网络组成。每个编码器层处理输入后,将结果传递给下一个编码器层,同样解码器也是逐层接收上层输出。

自注意力机制和前馈网络(Self-Attention and Feed-Forward Network):编码器和解码器的每一层都包含自注意力机制和前馈神经网络。自注意力机制可以捕捉输入中不同位置之间的依赖关系。