《机器学习工程》开放书籍

这本著作是一份有关大型语言模型和多模式模型训练方法的综合性资料汇编，涵盖了理论框架、工具使用以及详细的步骤指引。

这些资料专为大型语言模型（LLM）和视觉语言模型（VLM）培训工程师和管理员设计，包含了大量的脚本文档和可以直接复制的命令行示例，旨在帮助读者快速解决问题。

该存储库汇集了我多年来在开源大型语言模型（例如2022年的BLOOM-176B）和多模式模型（例如2023年的IDEFICS-80B）的训练过程中积累的专业知识和经验。目前，我正任职于Contextual.AI，专注于开发和训练开源的基于检索增强生成的（RAG）模型。

我将这些信息汇总在一起的主要目的是方便自己在需要时可以快速查找解决方案，但我也非常愿意与更广阔的机器学习社区分享这些内容。

更新通知

任何重大更新的公告都会在我的Twitter频道上公布：@StasBekman。

PDF版本

下载本书的PDF版本。

我会尽量保持每周更新一次，但如果想要最新版本，你也可以按照此处的说明自行编译。

感谢Hugging Face允许我在其平台上托管此书的PDF版本。

讨论区

如果你想在机器学习工程的任何方面展开讨论，可以在本仓库的社区讨论板块中发起新的话题或者加入已有的讨论。我们鼓励大家分享经验和相互学习！

快速链接

以下是一些你可能频繁访问的资源的直接链接：

工具类

all_reduce_bench.py - 一个比 nccl-tests 更易于使用的网络吞吐量基准测试工具。
torch-distributed-gpu-test.py - 一个用于快速测试节点之间连接的工具。

指南类

debugging pytorch applications - 快速修复 PyTorch 应用程序崩溃或冻结的有效技巧。
slurm for users - SLURM 用户指南和小贴士。
make tiny models/datasets/tokenizers - 制作微型模型的指南。
LLM/VLM chronicles collection - 公开可用的 LLM/VLM 训练日志精选。

鸣谢

如果没有过去委托给我的一些大规模模型训练项目，我不会有今天这样的成就。这种特权只属于少数人，因为租赁庞大的 ML 计算集群成本极为高昂。我希望他人可以通过阅读这些笔记来间接学习我的经验教训。

特别感谢Thomas Wolf，是他建议我领导 BLOOM-176B 的训练工作，尽管当时我对大规模训练几乎一无所知。正是那个项目点燃了我深入探索的热情。当然，也要感谢 Hugging Face 给了我机会全职投入到 BLOOM-176B 和后来的 IDEFCIS-80B 项目的训练工作中去。

我将这些信息汇总在一起的主要目的是为了让自己在需要时可以快速找到解决方案，但我很高兴也很愿意与更广泛的机器学习社区分享这些内容。

贡献

如果您发现任何错误、拼写错误或者其他需要改进之处，请毫不犹豫地通过提交问题报告或者直接提交拉取请求的方式帮助我们改善这份文档。

许可证

本网站内容遵循知识共享署名-相同方式共享 4.0 国际许可协议。

Name		Name	Last commit message	Last commit date
Latest commit History 558 Commits
build		build
compute		compute
debug		debug
images		images
inference		inference
insights		insights
model-parallelism		model-parallelism
network		network
orchestration/slurm		orchestration/slurm
resources		resources
storage		storage
testing		testing
training		training
.gitignore		.gitignore
LICENSE-CC-BY-SA		LICENSE-CC-BY-SA
Makefile		Makefile
README.md		README.md
chapters-md.txt		chapters-md.txt
incoming.md		incoming.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

《机器学习工程》开放书籍

目录

第一部分：洞见

第二部分：硬件

第三部分：调度

第四部分：训练

第五部分：开发

第六部分：其他

更新通知

PDF版本

讨论区

快速链接

工具类

指南类

鸣谢

贡献

许可证

About

Releases

Packages

Languages

License

soulteary/ml-engineering

Folders and files

Latest commit

History

Repository files navigation

《机器学习工程》开放书籍

目录

第一部分：洞见

第二部分：硬件

第三部分：调度

第四部分：训练

第五部分：开发

第六部分：其他

更新通知

PDF版本

讨论区

快速链接

工具类

指南类

鸣谢

贡献

许可证

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages