《大模型数据工程》指南，梳理了 LLM 从预训练到 RAG 的完整数据流水线

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

标题： 我们实验室开源了一本《大模型数据工程》指南，梳理了 LLM 从预训练到 RAG 的完整数据流水线

正文：

大家好。

最近我和团队（ datascale-ai ）在集中精力维护一本关于大模型数据工程（ Data Engineering for LLMs ）的开源书。目前内容已经基本成型，这也是我们近期开源输出的一个核心项目，想和大家分享一下。

GitHub 地址： https://github.com/datascale-ai/data_engineering_book/

在线阅读： https://datascale-ai.github.io/

现在行业里大家都认可 "Data-centric AI"，但现实是，网上的资料非常碎片化。多数教程都在教怎么调 API 、怎么写 Prompt ，但当开发者真正在一线干活时，怎么清洗几十 TB 的预训练数据？多模态数据怎么对齐？怎么搭一个稳定不翻车的 RAG 数据流水线？踩的坑极其多。

我们发现系统性的实战资料极度稀缺，所以干脆把实际工作中的经验和主流方案沉淀下来，写了这本开源书。希望帮大家从“摸着石头过河”到建立完整的底层逻辑。

项目整体遵循“基础设施 -> 专项场景 -> 端到端实战”的结构：

拒绝玩具框架，全企业级技术栈： 没有停留在纯理论，直接上目前主流的工具。分布式计算用 Ray Data / Spark ；存储讲 Parquet / WebDataset ；多模态对齐涉及 CLIP / ColPali 等。
四大核心场景全覆盖：

5 个直接可跑的实战项目： 全书包含 5 个端到端的实战代码，比如“Mini-C4 预训练集构建”、“垂直领域法律专家 SFT 数据集”、“企业财报多模态 RAG”。代码都在仓库里，可以直接复用落地。

项目采用 MIT 协议，支持中英双语，基于 MkDocs 构建。

目前还有很多可以完善的地方，如果你对 LLM 数据流水线感兴趣，或者正在做大模型相关的业务，欢迎来看看。非常欢迎大家在 Repo 里提 Issue 交流，或者提交 PR 一起共建。

如果觉得内容对你有帮助，求个 Star ⭐️ 支持一下，感谢！

2 条回复

ghostben

5 小时 57 分钟前

https://datascale-ai.github.io/
404
There isn't a GitHub Pages site here.

xuxin123122

5 小时 47 分钟前