About diy-llm

<div align='center'> <img src="./docs/public/diy-llm.png" alt="alt text" width="100%"> <h1>Diy-LLM</h1> </div> <div align="center"> <img src="https://img.shields.io/github/stars/datawhalechina/diy-llm?style=flat&logo=github" alt="GitHub stars"/> <img src="https://img.shields.io/github/forks/datawhalechina/diy-llm?style=flat&logo=github" alt="GitHub forks"/> <img src="https://img.shields.io/badge/language-Chinese-brightgreen?style=flat" alt="Language"/> <a href="https://github.com/datawhalechina/diy-llm"><img src="https://img.shields.io/badge/GitHub-Project-blue?style=flat&logo=github" alt="GitHub Project"></a> </div> <div align="center"> <p><a href="https://datawhalechina.github.io/diy-llm/">📚 在线阅读地址</a></p> <h3>📚 带你系统性学习大语言模型</h3> <p><em>一座为中文学习者量身打造的"LLM炼丹工坊"</em></p> </div> 我们希望这门 CS336 中文课程，不只是斯坦福原版的"汉化版"，而是一座为中文学习者量身打造的"LLM炼丹工坊"。在这里，你亲手锻造理解、打磨代码、调控火候，最终炼出属于自己的大模型真丹 ...

d

Published by

datawhalechina

Visit View Profile

README.md

View on GitHub

Diy-LLM

📚 在线阅读地址

📚 带你系统性学习大语言模型

一座为中文学习者量身打造的"LLM炼丹工坊"

我们希望这门 CS336 中文课程，不只是斯坦福原版的"汉化版"，而是一座为中文学习者量身打造的"LLM炼丹工坊"。在这里，你亲手锻造理解、打磨代码、调控火候，最终炼出属于自己的大模型真丹。

📋 前置要求

Python 编程：熟练掌握 Python 和软件工程能力
深度学习基础：熟悉 PyTorch，了解神经网络基本原理
数学基础：线性代数、概率统计、微积分
机器学习：需对机器学习与深度学习的基础知识有扎实掌握
GPU 编程（可选）：了解 CUDA 基础概念会更佳，不懂也没关系，本项目也有入门教程

📚 课程愿景

硬核理论与动手实战并重：我们会完整保留原版课程的技术深度，但会用更符合中文学习者思维的方式重构知识体系。对于必要的数学、深度学习前置知识，我们会帮你补齐，确保学习曲线平滑，让每个认真投入的人都能跟上。
搭建一套循序渐进的知识体系：将构建LLM这个庞大工程，拆解成一个个可以上手、可以理解的模块。学完后，你将拥有一个关于LLM的完整知识图谱。
代码驱动，知行合一：课程的核心是"用代码思考"。所有作业，我们不仅会提供实现代码，更会分享写下每一行代码时的思考过程。
贴近国内环境的本土化改造：考虑到国内的网络环境、大家手头的计算资源以及独特的开源生态，我们会提供更接地气的解决方案和案例（比如，多聊聊Qwen、DeepSeek等国产优秀模型）。

🎯 项目意义

学完这门课，你能得到什么？

扎实的技术地基：你将能亲手"造"出自己的LLM，对每个核心组件都了然于胸。
宝贵的工程经验：掌握从数据处理、模型训练到部署优化，堪比大厂的全流程实战技能。
突出的行业竞争力：具备大模型研发的核心能力，为你进入心仪的大厂或团队铺平道路。
清晰的科研视野：对LLM领域有体系化的认知，为未来深入研究打下坚实的基础。

📖 课程目录

章节	关键内容	配套作业	状态
前言	项目背景、学习路线、前置知识	-	✅
第1章工具使用	W&B 实验追踪、超参数搜索、可视化面板	-	📝
第2章分词器	BPE 算法原理、Unicode 规范化、手写 tokenizer 训练代码	作业1	✅
第3章 PyTorch 与资源核算	混合精度训练、梯度累积、FLOPs/显存估算	-	✅
第4章语言模型架构与训练细节	RoPE、RMSNorm、SwiGLU、AdamW、Pre-Norm vs Post-Norm、学习率调度	作业1	✅
第5章混合专家模型	Top-K 路由、负载均衡、辅助损失、Expert Parallelism、DeepSeekMoE	-	✅
第6章 GPU 与相关优化	显存带宽与计算强度、Flash Attention、Kernel Fusion、混合精度、BF16/TF32	作业2	✅
第7章 GPU 高性能编程	CUDA 编程模型、Tensor Cores、Shared Memory、Triton 入门	作业2	✅
第8章分布式训练	数据并行/模型并行/流水线并行、ZeRO-1/2/3、FSDP、梯度累积、All-Reduce	作业2	✅
第9章 Scaling Laws	Chinchilla 定律、计算最优配置、Scaling 实验设计、Extrapolation	作业3	✅
第10章推理	KV Cache、投机解码、量化 (GPTQ/AWQ)、PagedAttention、Continuous Batching	作业6	✅
第11章数据工程	数据质量过滤、MinHash 去重、PII 脱敏、数据配比、Data Curriculum	作业4	✅
第12章评估与基准测试	MMLU、HumanEval、HELM、CEval、AlpacaEval、Arena 排名	作业6	✅
第13章大模型的基本训练流程	Pre-training、SFT、DPO、RLHF PPO 流程、Alignment Tax	作业5	✅
第14章可验证奖励的强化学习	GRPO、Rule-based Verifier、Outcome/Process Reward、RLVR 与 R1 训练方案	作业5	✅
第15章扩展内容	1. LLM 推理的本质是什么？（黎又榛） 2. LeCun 眼中 LLM 的未来在哪里？（黎又榛、jiangyinhe、李盛康、徐虎）	-	🔄

状态图例说明：✅ 已完成 🔄 更新中 📝 待完善 🚧 筹备中 ⏸️ 暂缓

📝 作业概览

作业	核心任务	状态
作业1：手搓大模型	实现 tokenizer、model architecture、optimizer，训练一个极简语言模型	✅
作业2：系统优化	性能分析与基准测试；用 Triton 实现 FlashAttention-2；构建分布式训练代码	✅
作业3：扩展定律	理解 Transformer 各组件功能；拟合 scaling law 预测模型扩展效果	✅
作业4：数据处理	将 Common Crawl 原始数据转换为预训练数据集，执行过滤与去重	✅
作业5：模型对齐	应用 SFT 与强化学习（如 GRPO）训练模型解决数学问题	✅
作业6：模型评估	使用 lm-evaluation-harness 和 evalscope 进行多维度评测（语言理解、常识推理、代码、数学推理）	✅

🚀 快速开始

# 克隆仓库
git clone https://github.com/datawhalechina/diy-llm.git
cd diy-llm
# 安装基础依赖（根据具体作业需求安装）

学习路径

1️⃣ 理论学习 → 按章节顺序阅读 docs/zh/ 目录下的中文文档（English version in docs/en/）
2️⃣ 实践练习 → 完成 coursework/ 目录下的 6 个作业
3️⃣ 深入理解 → 阅读代码实现，理解每个组件的设计

项目结构

diy-llm/
├── docs/                    # 在线文档
│   ├── zh/                 # 中文文档（默认）
│   │   ├── 前言.md
│   │   ├── chapter1/       # 工具使用
│   │   ├── chapter2/       # 分词器
│   │   ├── chapter3/       # PyTorch 与资源核算
│   │   ├── chapter4/       # 语言模型架构与训练细节
│   │   ├── chapter5/       # 混合专家模型
│   │   ├── chapter6/       # GPU 与相关优化
│   │   ├── chapter7/       # GPU 高性能编程
│   │   ├── chapter8/       # 分布式训练
│   │   ├── chapter9/       # Scaling Laws
│   │   ├── chapter10/      # 推理
│   │   ├── chapter11/      # 数据工程
│   │   ├── chapter12/      # 评估与基准测试
│   │   ├── chapter13/      # 大模型的基本训练流程
│   │   ├── chapter14/      # 可验证奖励的强化学习
│   │   └── chapter15/      # 前沿扩展内容
│   ├── en/                 # English documentation
│   │   └── ...
│   └── .vitepress/         # VitePress 配置
├── coursework/              # 实践作业
│   ├── assignment1-basics/        # 作业1：手搓大模型
│   ├── assignment2-systems/       # 作业2：系统优化
│   ├── assignment3-scaling/       # 作业3：扩展定律
│   ├── assignment4-data/          # 作业4：预训练数据处理
│   ├── assignment5-alignment/     # 作业5：对齐
│   └── assignment6-evaluation/    # 作业6：评估
├── README.md               # 项目说明
└── .gitignore              # Git忽略配置

PDF 版本下载

本教程提供 PDF 版本，方便离线阅读和打印学习。为防止各类营销号加水印后贩卖给 LLM 的读者，我们特地在 PDF 文件中添加了不影响阅读的 Datawhale 开源标志水印，敬请谅解～

📥 Diy-LLM 课程讲义 PDF: https://github.com/datawhalechina/diy-llm/releases/latest/

🔗 相关链接

仓库地址：https://github.com/datawhalechina/diy-llm
在线阅读地址：https://datawhalechina.github.io/diy-llm/
原版课程主页：Stanford CS336 (Spring 2025)
原版课程项目：https://github.com/stanford-cs336/spring2025-lectures/tree/main

❓ 常见问题

Q: 没有 GPU 可以学习吗？

理论部分可以正常学习，作业中的部分内容可以在 CPU 上调试，但完整训练需要 GPU。建议使用云服务平台。

Q: 与原版 CS336 有什么区别？

我们在保留原版技术深度的基础上，针对中文学习者进行了本土化改造，包括中文讲解、作业实现、更详细的参考内容来源、国产模型案例等。

👥 贡献者

贡献者名单

徐虎

项目负责人
Datawhale 成员
上海交通大学
负责内容：第1、3、9、12、14章；作业5、6；全文内容审核

李盛康

项目负责人
Datawhale 成员
西安邮电大学
负责内容：第4、6、7、8、13章；作业2、4

黎又榛

项目负责人
Datawhale-鲸英助教
负责内容：第2、5、10、11、13章；作业1、3；

感谢 @aimetrics 在作业1 的 train.py 中，增加了在 Macbook 设备上的 MPS 支持
感谢@FuTseYi(Datawhale成员)对网站迁移、部署和重构的支持
感谢@jiangyinhe参与第 15 章扩展内容《LLM 的未来 - Lecun》的整理

注：我们感谢每一位为项目做出贡献的开发者！

我们欢迎所有形式的贡献！无论是文档改进、代码优化、bug修复还是新内容添加，都是对项目的宝贵支持。

如何贡献

报告问题：如果发现文档错误、代码bug或改进建议，欢迎提交 Issue
提交代码：Fork 本仓库，创建你的特性分支，提交更改后发起 Pull Request
完善文档：帮助改进文档、翻译内容或添加示例
分享经验：在讨论区分享学习心得和实践经验

贡献指南

提交代码前请确保代码风格一致
添加新内容时请遵循现有的文档格式
提交PR时请提供清晰的描述和变更说明
欢迎在Issue中讨论大的改动方案

📝 更新日志

项目持续更新中，最新进展请查看 GitHub Releases 或提交记录。

📄 许可证

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

🙏 致谢

感谢 Stanford CS336 课程团队提供优秀的原版课程
特别感谢@Sm1les对本项目的帮助与支持
感谢所有为项目做出贡献的开发者
感谢开源社区的支持与反馈

⭐ Star History

如果这个项目对你有帮助，欢迎给个 Star ⭐️！

让更多人能够系统性地学习大语言模型构建技术

Made with ❤️ by the Datawhale

diy-llm