AI学习路径
首页
开始学习
学习理念
学习路线
常见问题
开始学习
底层原理探索
1. 深度学习基础
2. Transformer架构详解
3. 大语言模型训练
预训练:从文本中学习
指令微调(SFT)
RLHF:人类反馈强化学习
Token与分词器
实战:微调一个小模型
4. 前沿技术探索
返回 底层原理探索
模块 3 · 第 3 课
RLHF:人类反馈强化学习
预计时长:40分钟
课程内容准备中
本课程的详细内容正在编写中,敬请期待。你可以先浏览其他已完成的课程内容。
上一课
指令微调(SFT)
下一课
Token与分词器