llm 分类

缩放点积注意力，到底在算什么

给输入序列里的每个token，分配一个权重，重要的token权重高，不重要的权重低，然后把所有token的表示加权求和，得到最终的上下文表示。

\operatorname{Attention}(Q,K,V) = \operatorname{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right)V

HDZ2026/5/18大约 14 分钟

具体详情见：Pytorch

HDZ2026/5/4小于 1 分钟

数据有明确答案，也就是有标签。(LLM 里的 SFT，监督微调，本质上也属于监督学习。)

数据没有人工标签，模型自己找规律。

智能体通过和环境交互，根据奖励信号学习策略。

数据集一般分为：

训练集：用来训练模型
验证集：用来调参数、选模型
测试集：最终评估模型效果

HDZ2026/5/4大约 2 分钟