机器学习
2026/5/4大约 2 分钟
监督学习、无监督学习、强化学习
监督学习
数据有明确答案,也就是有标签。(LLM 里的 SFT,监督微调,本质上也属于监督学习。)
无监督学习
数据没有人工标签,模型自己找规律。
强化学习
智能体通过和环境交互,根据奖励信号学习策略。
数据集、特征、标签
数据集
数据集一般分为:
训练集:用来训练模型
验证集:用来调参数、选模型
测试集:最终评估模型效果特征
特征就是模型用来判断的输入信息。(深度学习中,很多特征是模型自动学出来的。)
标签
标签就是答案。
模型、参数、训练
模型
模型可以理解为一个函数:
参数
参数就是模型内部可以学习的数值。
比如神经网络里的:
比如神经网络里的:
权重 W
偏置 b训练
训练的过程可以理解为:
先预测 → 算错误 → 根据错误调整参数 → 再预测损失函数 Loss
损失函数用来衡量:
模型预测结果和真实答案之间差得有多远。
MSE Loss:均方误差,常用于回归
Cross Entropy Loss:交叉熵,常用于分类优化器、梯度下降、反向传播
梯度下降
找到一组参数,让 loss 尽可能小。
学习率
学习率决定每一步走多大。
反向传播
根据 loss 反向计算每一层参数应该怎么改。
过拟合、欠拟合、泛化
过拟合
模型把训练数据记得太死,导致新数据表现差。
欠拟合
模型能力不够,连训练数据都学不好。
泛化能力
模型在没见过的新数据上表现好的能力。
