万益资讯网

一个大模型的教学项目: GuppyLM ,参数8.7Mgithub.com/ar

一个大模型的教学项目: GuppyLM ,参数8.7Mgithub.com/arman-bd/guppylm

“该项目用来展示训练自己的语言模型并非神秘操作。无需博士学位。无需大型 GPU 集群。只需一个 Colab 笔记本,5 分钟,你就能拥有一个从零构建的可用 LLM——包括数据生成、分词器、模型架构、训练循环和推理。如果你能运行笔记本,就能训练语言模型。它不会生成可以写论文的亿参数模型。但它会准确展示每个环节的工作原理——从原始文本到训练权重再到生成输出——让大型模型不再像黑箱。”

GuppyLM 是一个微型语言模型,它假装自己是一条名叫 Guppy 的鱼。它用简短的小写句子谈论水、食物、光照和水族箱生活。它不理解金钱、手机或政治等人类抽象概念——也没有尝试去理解。它从零开始训练,使用 6 万条涵盖 60 个主题的合成对话,在单个 GPU 上约 5 分钟即可运行,并生成足够小的模型,可以在浏览器中运行。

How I AI