标签: 机器学习

监督学习、无监督学习、强化学习

数据有明确答案，也就是有标签。(LLM 里的 SFT，监督微调，本质上也属于监督学习。)

数据没有人工标签，模型自己找规律。

智能体通过和环境交互，根据奖励信号学习策略。

数据集一般分为：

训练集：用来训练模型
验证集：用来调参数、选模型
测试集：最终评估模型效果

HDZ2026/5/4大约 2 分钟