Attention is all you need缩放点积注意力,到底在算什么 给输入序列里的每个token,分配一个权重,重要的token权重高,不重要的权重低,然后把所有token的表示加权求和,得到最终的上下文表示。 Attention(Q,K,V)=softmax(QKTdk)V\operatorname{Attention}(Q,K,V) = \operatorname{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right)V Attention(Q,K,V)=softmax(dkQKT)VHDZ2026/5/18大约 14 分钟llm论文
机器学习监督学习、无监督学习、强化学习 监督学习 数据有明确答案,也就是有标签。(LLM 里的 SFT,监督微调,本质上也属于监督学习。) 无监督学习 数据没有人工标签,模型自己找规律。 强化学习 智能体通过和环境交互,根据奖励信号学习策略。 数据集、特征、标签 数据集 数据集一般分为: 训练集:用来训练模型 验证集:用来调参数、选模型 测试集:最终评估模型效果 HDZ2026/5/4大约 2 分钟llm机器学习