有了这个解析插件，大模型能读取 3000 多项 PDF 文档，并根据提问回答问题。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

爱意满满的作品展示区。

现在的大模型虽然上下文窗口大，但理解的范围不大，如果全部丢给它，估计会被塞爆。

如果 PDF 里面还包含了图片、表格等等的话，那就更不用说了。

所以，我做了一个专治非结构化数据的文件解析插件 Knowhere ，它能够识别复杂的 PDF 、Excel 、PPT 等格式，然后把文件按照思维导图的逻辑进行解析，最大程度地保留文档的层级和结构，最后按照格式分门别类，方便大模型的调用和读取。这时候你再向大模型提问，它的回答就靠谱多了。

我测试了一下，对比传统简单粗暴的 RAG ，这种树形结构的拆分法更符合 AI 的学习逻辑，出来的结果也更准确了，大大减少了大模型的幻觉。

有需要的老哥可以试用一下： https://knowhereto.ai/?utm_source=V2EX

8 replies • 2026-04-27 16:39:48 +08:00

facat

Apr 24

能透露一下后台用的是什么服务吗？

cxd8190102

Apr 24

@facat #1 我准备把它开源出去，后面你可以关注一下，就知道了。

FrankAdler

Apr 25 via Android

腾讯的 ima ？

v2zhao

Apr 26

最近正好需要期待分享

wsbqdyhm

Apr 27 via iPhone

可以，看起来不错的样子

cxd8190102

Apr 27

@FrankAdler #3 不是，自己搞的小项目，ima 装不下这么大的量，解析效果也不好。

FrankAdler

Apr 27

@cxd8190102 ima 有 50GB 空间啊，怎么会不够用

cxd8190102

Apr 27

@FrankAdler #7 企业级的不行，而且还要解析和调用