图解Transformer结构

云计算分享者 2024-02-26 08:31:11

Transformer的结构可以很复杂,但是其中最主要的还是自注意机制和FNN(feed-forward network),其他的

1.输入

前一个块的输入特征(5个向量,3维的)

2.注意力矩阵

将所有 5 个特征输入查询键注意力模块 (QK) 以获得注意力权重矩阵 (A),前面有文章介绍过。

3.注意力加权

将输入特征与注意力权重矩阵相乘,得到注意力加权特征(Z)。

效果就像是一个水平组合,比如这儿的,

4.Feed Forward层1

将所有 5 个注意力加权特征输入到第一层FNN。

将这些特征值与权重相乘再加上偏差。效果是垂直组合。每个特征的维度从 3 增加到 4。每个位置都由相同的权重矩阵处理。FFN 本质上是一个多层感知器。

5.Feed Forward层1,ReLU处理

经过一次ReLU处理。

6.Feed Forward层2

将所有 5 个特征 (3维)输入到Feed Forward第二层。每个特征的维度从 4 降回 3(和输入一样)。输出被送到下一个块以重复此过程。

0 阅读:0

云计算分享者

简介:感谢大家的关注