「注意力实际上是对数的」?七年前的Transformer还有新发现,Karpathy点赞


-
点积计算:QK^⊤ 的矩阵乘法,复杂度为 O (n^2d),其中 n 是序列长度,d 是特征维度。 -
Softmax 归一化:对每个位置的注意力权重进行归一化,复杂度为 O (n^2)。
-
博客链接:https://supaiku.com/attention-is-logarithmic










-
树的最大宽度 >> 计算单元(不管是什么内核)。 -
内存访问模式不连续 / 不可矢量化? -
物化变量与内存层次结构不匹配。