V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
SGL
V2EX  ›  程序员

如何高效率高质量利用 LLM 翻译一本文字版 pdf 书籍(几百页)?

  •  
  •   SGL · 14 小时 52 分钟前 · 1520 次点击
    有一些不错的书籍没有国内译本,鉴于个人英语水平不支持高效率地阅读英文书籍。

    因此想要把文字版的 pdf 书籍自己翻译成中文手稿。

    目前想象的思路就是:

    1. 利用 pdf 工具把所每页都处理成 markdown ,图片提取出来也用 markdown 格式进行排版。
    2. 调用 LLM API 逐个文档翻译。
    3. 为了便于校对翻译质量,采取一段一段的上英下中的对照式翻译。

    上面的方案中唯一不确定性的在于:
    1. pdf 解析库是否能力足够高质量的把 pdf 解析成 markdown?
    2. 至于 llm 翻译的部分,翻译本身就不需要太长的上下文,就一段一段的慢慢放到后台调 api 并发翻译,然后拼接起来就好了。
    18 条回复    2025-10-08 22:15:53 +08:00
    SGL
        1
    SGL  
    OP
       14 小时 49 分钟前
    由于是编程类书籍,所以还得考虑下代码块能否正确的识别和转换
    123go
        2
    123go  
       14 小时 30 分钟前 via Android
    如果你只是解决英文 pdf 文档阅读问题,我推荐你试试微信阅读。
    它的全文翻译看效果就是用的 LLM ,并且质量相当高。而且会对长段落进行适当的切割以方便中英对照。
    twofox
        3
    twofox  
       14 小时 26 分钟前
    沉浸式翻译,我用它翻译了算法导论第四版。保留双语版本,原格式。
    twofox
        4
    twofox  
       14 小时 24 分钟前
    @twofox 该花钱花钱,在自己不擅长的领域,消耗的时间精力会更加多。
    SGL
        5
    SGL  
    OP
       14 小时 5 分钟前
    @twofox 沉浸式翻译出来的排版布局却是不错,感谢
    ydm9481
        6
    ydm9481  
       14 小时 3 分钟前 via iPhone
    GitHub 上有 PDFMathTranslate-next
    MIUIOS
        7
    MIUIOS  
       14 小时 2 分钟前
    全部翻译不现实 不如看一段翻译一段
    funcman
        8
    funcman  
       12 小时 44 分钟前
    UPDF
    hammy
        9
    hammy  
       12 小时 40 分钟前
    让 Gt4t 去翻译的话反正花钱就行了...自己动手创造轮子可以复用,也有好处。
    Colemei
        10
    Colemei  
       12 小时 30 分钟前
    没什么特别注意的,反正都是要消耗 api 的 credits ,你翻译书籍的内容是固定的 token 数也是固定的,我这里提供一点思路:现在各大 provider 很多都支持 batch api ,可以省一半的 api 费用,让 agent 写 batch 的实现也很简单,把 official doc 喂给他读一下就好了
    jamers
        11
    jamers  
       12 小时 25 分钟前
    doc2x.noedgeai.com ,推荐用这个,方便快捷~
    speedmancs
        12
    speedmancs  
       12 小时 10 分钟前   ❤️ 1
    把电子书导入微信阅读,如果是 pdf 形式的它也能翻译,只不过要先转成电子书格式。
    yahon
        13
    yahon  
       11 小时 22 分钟前
    https://app.immersivetranslate.com/babel-doc/ 这个应该能满足你的要求~
    BlueSkyXN
        14
    BlueSkyXN  
       9 小时 18 分钟前 via iPhone
    太麻烦,谷歌一键翻译
    liqinliqin
        15
    liqinliqin  
    PRO
       9 小时 10 分钟前
    www.swoole.com 上面可以翻译,直接上传 pdf 就行了,输出也是翻译好的 pdf
    moudy
        16
    moudy  
       8 小时 59 分钟前
    编程类书籍的英语都很简单吧,跟文学性或新闻性的英文根本不在一个级别上。翻译之后很多原意都领会不到。
    SGL
        17
    SGL  
    OP
       8 小时 52 分钟前
    @liqinliqin 这个看上去好像不太对,是否发错了
    Yade
        18
    Yade  
       5 小时 20 分钟前
    之前的小红书的 dots.ocr 做过一些 pdf 格式的书籍转成 markdown 格式,看起来不错
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   699 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 19:35 · PVG 03:35 · LAX 12:35 · JFK 15:35
    ♥ Do have faith in what you're doing.