这本著作是一份有关大型语言模型和多模式模型训练方法的综合性资料汇编,涵盖了理论框架、工具使用以及详细的步骤指引。
这些资料专为大型语言模型(LLM)和视觉语言模型(VLM)培训工程师和管理员设计,包含了大量的脚本文档和可以直接复制的命令行示例,旨在帮助读者快速解决问题。
该存储库汇集了我多年来在开源大型语言模型(例如2022年的BLOOM-176B)和多模式模型(例如2023年的IDEFICS-80B)的训练过程中积累的专业知识和经验。目前,我正任职于Contextual.AI,专注于开发和训练开源的基于检索增强生成的(RAG)模型。
我将这些信息汇总在一起的主要目的是方便自己在需要时可以快速查找解决方案,但我也非常愿意与更广阔的机器学习社区分享这些内容。
如果发现页面布局不稳,这可能是因为我一直在不断地新增章节并逐步优化内容的结构,使之更为清晰易懂。敬请理解!
- 人工智能战场工程 - 在这一领域的成功所需的知识
- SLURM - 主要的管理系统。
- 训练指南 - 与模型训练相关的指南。
- 资源链接 - LLM/VLM的历史记录。
任何重大更新的公告都会在我的Twitter频道上公布:@StasBekman。
下载本书的PDF版本。
我会尽量保持每周更新一次,但如果想要最新版本,你也可以按照此处的说明自行编译。
感谢Hugging Face允许我在其平台上托管此书的PDF版本。
如果你想在机器学习工程的任何方面展开讨论,可以在本仓库的社区讨论板块中发起新的话题或者加入已有的讨论。我们鼓励大家分享经验和相互学习!
以下是一些你可能频繁访问的资源的直接链接:
- all_reduce_bench.py - 一个比
nccl-tests
更易于使用的网络吞吐量基准测试工具。 - torch-distributed-gpu-test.py - 一个用于快速测试节点之间连接的工具。
- debugging pytorch applications - 快速修复 PyTorch 应用程序崩溃或冻结的有效技巧。
- slurm for users - SLURM 用户指南和小贴士。
- make tiny models/datasets/tokenizers - 制作微型模型的指南。
- LLM/VLM chronicles collection - 公开可用的 LLM/VLM 训练日志精选。
如果没有过去委托给我的一些大规模模型训练项目,我不会有今天这样的成就。这种特权只属于少数人,因为租赁庞大的 ML 计算集群成本极为高昂。我希望他人可以通过阅读这些笔记来间接学习我的经验教训。
特别感谢Thomas Wolf,是他建议我领导 BLOOM-176B 的训练工作,尽管当时我对大规模训练几乎一无所知。正是那个项目点燃了我深入探索的热情。当然,也要感谢 Hugging Face 给了我机会全职投入到 BLOOM-176B 和后来的 IDEFCIS-80B 项目的训练工作中去。
我将这些信息汇总在一起的主要目的是为了让自己在需要时可以快速找到解决方案,但我很高兴也很愿意与更广泛的机器学习社区分享这些内容。
如果您发现任何错误、拼写错误或者其他需要改进之处,请毫不犹豫地通过提交问题报告或者直接提交拉取请求的方式帮助我们改善这份文档。
本网站内容遵循知识共享署名-相同方式共享 4.0 国际许可协议。