V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
xuxin123122
V2EX  ›  程序员

《大模型数据工程》指南,梳理了 LLM 从预训练到 RAG 的完整数据流水线

  •  1
     
  •   xuxin123122 · 10 小时 24 分钟前 · 231 次点击

    标题: 我们实验室开源了一本《大模型数据工程》指南,梳理了 LLM 从预训练到 RAG 的完整数据流水线

    正文:

    大家好。

    最近我和团队( datascale-ai )在集中精力维护一本关于大模型数据工程( Data Engineering for LLMs )的开源书。目前内容已经基本成型,这也是我们近期开源输出的一个核心项目,想和大家分享一下。

    GitHub 地址: https://github.com/datascale-ai/data_engineering_book/

    在线阅读: https://datascale-ai.github.io/

    为什么要做这个项目?

    现在行业里大家都认可 "Data-centric AI",但现实是,网上的资料非常碎片化。多数教程都在教怎么调 API 、怎么写 Prompt ,但当开发者真正在一线干活时,怎么清洗几十 TB 的预训练数据?多模态数据怎么对齐?怎么搭一个稳定不翻车的 RAG 数据流水线?踩的坑极其多。

    我们发现系统性的实战资料极度稀缺,所以干脆把实际工作中的经验和主流方案沉淀下来,写了这本开源书。希望帮大家从“摸着石头过河”到建立完整的底层逻辑。

    这本书里有什么?

    项目整体遵循“基础设施 -> 专项场景 -> 端到端实战”的结构:

    1. 拒绝玩具框架,全企业级技术栈: 没有停留在纯理论,直接上目前主流的工具。分布式计算用 Ray Data / Spark ;存储讲 Parquet / WebDataset ;多模态对齐涉及 CLIP / ColPali 等。
    2. 四大核心场景全覆盖:
    • 文本预训练数据工程(采集、清洗、去重)
    • 多模态数据工程(图文对、重描述、音视频)
    • 对齐与合成数据(指令微调 SFT 、偏好数据)
    • 应用级流水线(文本 RAG 与多模态 RAG )
    1. 5 个直接可跑的实战项目: 全书包含 5 个端到端的实战代码,比如“Mini-C4 预训练集构建”、“垂直领域法律专家 SFT 数据集”、“企业财报多模态 RAG”。代码都在仓库里,可以直接复用落地。

    写在最后

    项目采用 MIT 协议,支持中英双语,基于 MkDocs 构建。

    目前还有很多可以完善的地方,如果你对 LLM 数据流水线感兴趣,或者正在做大模型相关的业务,欢迎来看看。非常欢迎大家在 Repo 里提 Issue 交流,或者提交 PR 一起共建。

    如果觉得内容对你有帮助,求个 Star ⭐️ 支持一下,感谢!

    2 条回复
    ghostben
        1
    ghostben  
       5 小时 57 分钟前
    https://datascale-ai.github.io/
    404
    There isn't a GitHub Pages site here.
    xuxin123122
        2
    xuxin123122  
    OP
       5 小时 47 分钟前
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   972 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:05 · PVG 04:05 · LAX 13:05 · JFK 16:05
    ♥ Do have faith in what you're doing.