一份StanfordCS336,从头构建大语言模型的课程笔记bearbear

蚁工厂 2025-11-25 13:19:54

一份 Stanford CS336,从头构建大语言模型的课程笔记bearbearyu1223.github.io/cs336/2025/11/16/cs336-the-complete-experiment-for-tinystories-transformer.html本文详细介绍了从零开始构建一个Transformer语言模型并在TinyStories数据集上进行训练的完整过程。内容涵盖了每个主要组件——从字节对编码分词和旋转嵌入的多头注意力机制,到训练循环设计和高级文本生成策略。本笔记的目标是为完成CS336的第一项作业提供清晰、实用的参考,通常这项作业是课程中最耗时且技术挑战最大的作业。

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注