网站首页 > 博客 > 正文

语言模型深度学习 Transformer and Pretrain Language Models3-2

甜水一博客 2024-01-25 1 0

transformer structure注意力机制的各种变体

第二种变体：

如果两个向量的维度不一样，我们就需要在中间加上一个权重矩阵，来实现他们之间的相乘，然后最后得到一个标量

第三种变体：

additive attention

它和前面的有一个比较大的不同，它使用了一层的前馈神经网络，来将两个向量变成一个标量，来得到注意力分数

在这个变体中，w1、w2和v，分别是两个权重矩阵和一个权重向量；tanh是一个激活函数。这样的话最后也可以得到一个标量，作为前面的注意力分数

此外还有许多其他的变体，可执行查找了解。

相关链接

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

本文由用户于 2024-01-25 发布在夸智网，如有疑问，请联系我们。
本文链接：https://www.kuazhi.com/post/712982047.html

上一篇

计算机网络：九大命令！解决网络故障新思路

下一篇

计算机网络网络安全小白进阶试题——附答案

发表评论取消回复

返回顶部暗黑模式