• 请不要在回答技术问题时复制粘贴 AI 生成的内容
iwukong
V2EX  ›  程序员

有什么办法将 PDF 里的报表抓取出来,整理成 excel 的

  •  
  •   iwukong · Jul 31, 2020 · 3254 views
    This topic created in 2134 days ago, the information mentioned may be changed or developed.
    有什么办法将 PDF 里的报表抓取出来,整理成 excel 的

    比如披露易里的抓取 pdf 的报表
    Supplement 1  ·  Aug 3, 2020
    要在线抓取披露易里的 PDF,然后提取里面数据,然后生成 EXCEL,不要下载下来的
    20 replies    2020-08-04 22:03:50 +08:00
    redeemer1001
        1
    redeemer1001  
       Jul 31, 2020
    没有现成的话,找个 pdf 解析库呗…参考 pdf 格式规范…
    Adobe PDF file specification document available from Adobe website: “PDF Reference, Sixth Edition, Adobe Portable Document Format Version 1.7 November 2006”[http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdf_reference_1-7.pdf]. It is an intimidating 1310 pages document. I would strongly recommend reading Chapter 4 Graphics and sections 5.2 and 5.3 of the Text chapter 5.
    摘自 https://www.codeproject.com/Articles/570682/PDF-File-Writer-Csharp-Class-Library-Version-1-26
    shiny
        2
    shiny  
    PRO
       Jul 31, 2020
    做过上教所和深交所的 pdf 解析入库,转文字后,正则匹配或者关键词匹配都比较容易实现。麻烦的地方是同类型报表虽然格式固定,但总有公司没有把格式写的完完全全一样。
    要是数据项第三方库有,用第三方的更省事,比如 tushare
    Dragonish3600
        3
    Dragonish3600  
       Jul 31, 2020 via iPhone
    Word 打开 pdf,直接复制到 excel
    gladuo
        4
    gladuo  
       Jul 31, 2020
    jumpshen
        5
    jumpshen  
       Jul 31, 2020 via iPhone
    正好也在查这方面的资料
    whileFalse
        6
    whileFalse  
       Aug 1, 2020
    OCR 试试?
    0ranger
        7
    0ranger  
       Aug 1, 2020 via iPhone
    白描 ocr 据说可以,不过我没成功
    whi147
        8
    whi147  
       Aug 1, 2020 via iPhone
    最近就在做这方面的代码,c++库有 mupdf 、xpdf,python 库有 pymupdf 、pdfplumber
    whi147
        9
    whi147  
       Aug 1, 2020 via iPhone
    还有 wxexcel
    hwlhwlxyz
        10
    hwlhwlxyz  
       Aug 1, 2020
    如果不是图片的话,我用过 tabula,还挺好用的,不知道你的格式是什么样子的。https://github.com/tabulapdf/tabula
    heguangyu5
        11
    heguangyu5  
       Aug 1, 2020 via iPhone
    mupdf +1

    mupdf 是个 c 库,还有很不错的文档,自身还带了几个实用工具,做格式转换、文字、图片、字体提取都很好用。
    iwukong
        13
    iwukong  
    OP
       Aug 3, 2020
    @dayeye2006199 这的花多少钱
    iwukong
        14
    iwukong  
    OP
       Aug 3, 2020
    @jumpshen 找到了吗
    iwukong
        15
    iwukong  
    OP
       Aug 3, 2020
    @ladypxy 1 万份咋办
    Dragonish3600
        16
    Dragonish3600  
       Aug 3, 2020
    @iwukong python 写个程序自动调用 word 啊,网上大把代码
    iwukong
        17
    iwukong  
    OP
       Aug 3, 2020
    @whi147 成功了吗 那些数据网站如何做的 wind chioce 理杏仁等
    dayeye2006199
        18
    dayeye2006199  
       Aug 4, 2020
    @iwukong 每月前 1000 页免费。1 百万页以下$1.5 每千页
    whi147
        19
    whi147  
       Aug 4, 2020 via iPhone
    @iwukong 工作代码不易公开,成功是肯定成功的,你就看下我用的几个库,自己也能摸索出来
    iwukong
        20
    iwukong  
    OP
       Aug 4, 2020
    @dayeye2006199 关键我是想要的是
    1.自动抓取网上的
    2.自动入库
    他这个只是每一个一个抓取吧
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3640 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 64ms · UTC 04:38 · PVG 12:38 · LAX 21:38 · JFK 00:38
    ♥ Do have faith in what you're doing.