V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
cxd8190102

有了这个解析插件,大模型能读取 3000 多项 PDF 文档,并根据提问回答问题。

  •  
  •   cxd8190102 · Apr 24 · 944 views

    现在的大模型虽然上下文窗口大,但理解的范围不大,如果全部丢给它,估计会被塞爆。

    如果 PDF 里面还包含了图片、表格等等的话,那就更不用说了。

    https://imgur.com/a/Guu8GR2

    所以,我做了一个专治非结构化数据的文件解析插件 Knowhere ,它能够识别复杂的 PDF 、Excel 、PPT 等格式,然后把文件按照思维导图的逻辑进行解析,最大程度地保留文档的层级和结构,最后按照格式分门别类,方便大模型的调用和读取。这时候你再向大模型提问,它的回答就靠谱多了。

    我测试了一下,对比传统简单粗暴的 RAG ,这种树形结构的拆分法更符合 AI 的学习逻辑,出来的结果也更准确了,大大减少了大模型的幻觉。

    有需要的老哥可以试用一下: https://knowhereto.ai/?utm_source=V2EX

    8 replies    2026-04-27 16:39:48 +08:00
    facat
        1
    facat  
       Apr 24
    能透露一下后台用的是什么服务吗?
    cxd8190102
        2
    cxd8190102  
    OP
       Apr 24
    @facat #1 我准备把它开源出去,后面你可以关注一下,就知道了。
    FrankAdler
        3
    FrankAdler  
       Apr 25 via Android
    腾讯的 ima ?
    v2zhao
        4
    v2zhao  
       Apr 26
    最近正好需要 期待分享
    wsbqdyhm
        5
    wsbqdyhm  
       Apr 27 via iPhone
    可以,看起来不错的样子
    cxd8190102
        6
    cxd8190102  
    OP
       Apr 27
    @FrankAdler #3 不是,自己搞的小项目,ima 装不下这么大的量,解析效果也不好。
    FrankAdler
        7
    FrankAdler  
       Apr 27
    @cxd8190102 ima 有 50GB 空间啊,怎么会不够用
    cxd8190102
        8
    cxd8190102  
    OP
       Apr 27
    @FrankAdler #7 企业级的不行,而且还要解析和调用
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2931 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 48ms · UTC 13:03 · PVG 21:03 · LAX 06:03 · JFK 09:03
    ♥ Do have faith in what you're doing.