Attention is all you need缩放点积注意力,到底在算什么 给输入序列里的每个token,分配一个权重,重要的token权重高,不重要的权重低,然后把所有token的表示加权求和,得到最终的上下文表示。 Attention(Q,K,V)=softmax(QKTdk)V\operatorname{Attention}(Q,K,V) = \operatorname{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right)V Attention(Q,K,V)=softmax(dkQKT)VHDZ2026/5/18大约 14 分钟llm论文