Skip to content

Latest commit

 

History

History
30 lines (15 loc) · 814 Bytes

位置编码.md

File metadata and controls

30 lines (15 loc) · 814 Bytes

相对位置编码

Transformers论文中所用

 基于三角函数

$$ sin(a+b) = sinacosb + sinbcosa

$$

可将a和b位置编码推广到a+b位置,实现相对编码。

经典式(拆解attention公式,替换进需要学习的位置编码矩阵Rij, 因为有截断,既超过最大最小长度取默认最大最小),所以可以拓展到无限长度。

XLNET式

T5式,改公式,分桶截断。

绝对位置编码

BERT,GPT:训练一个512 * 768的矩阵向量,直接叠加。