机器学习

HDZ2026/5/4大约 2 分钟

监督学习、无监督学习、强化学习

数据有明确答案，也就是有标签。(LLM 里的 SFT，监督微调，本质上也属于监督学习。)

数据没有人工标签，模型自己找规律。

智能体通过和环境交互，根据奖励信号学习策略。

数据集一般分为：

训练集：用来训练模型
验证集：用来调参数、选模型
测试集：最终评估模型效果

特征就是模型用来判断的输入信息。(深度学习中，很多特征是模型自动学出来的。)

模型可以理解为一个函数： $x \xrightarrow{f(x)} y$

参数就是模型内部可以学习的数值。
比如神经网络里的：
比如神经网络里的：

权重 W
偏置 b

训练的过程可以理解为：

先预测 → 算错误 → 根据错误调整参数 → 再预测

损失函数用来衡量：

模型预测结果和真实答案之间差得有多远。

MSE Loss：均方误差，常用于回归
Cross Entropy Loss：交叉熵，常用于分类

找到一组参数，让 loss 尽可能小。

学习率决定每一步走多大。

根据 loss 反向计算每一层参数应该怎么改。

模型把训练数据记得太死，导致新数据表现差。

模型能力不够，连训练数据都学不好。

模型在没见过的新数据上表现好的能力。