现在的大模型虽然上下文窗口大,但理解的范围不大,如果全部丢给它,估计会被塞爆。
如果 PDF 里面还包含了图片、表格等等的话,那就更不用说了。
所以,我做了一个专治非结构化数据的文件解析插件 Knowhere ,它能够识别复杂的 PDF 、Excel 、PPT 等格式,然后把文件按照思维导图的逻辑进行解析,最大程度地保留文档的层级和结构,最后按照格式分门别类,方便大模型的调用和读取。这时候你再向大模型提问,它的回答就靠谱多了。
我测试了一下,对比传统简单粗暴的 RAG ,这种树形结构的拆分法更符合 AI 的学习逻辑,出来的结果也更准确了,大大减少了大模型的幻觉。
有需要的老哥可以试用一下: https://knowhereto.ai/?utm_source=V2EX
1
facat Apr 24
能透露一下后台用的是什么服务吗?
|
2
cxd8190102 OP @facat #1 我准备把它开源出去,后面你可以关注一下,就知道了。
|
3
FrankAdler Apr 25 via Android
腾讯的 ima ?
|
4
v2zhao Apr 26
最近正好需要 期待分享
|
5
wsbqdyhm Apr 27 via iPhone
可以,看起来不错的样子
|
6
cxd8190102 OP @FrankAdler #3 不是,自己搞的小项目,ima 装不下这么大的量,解析效果也不好。
|
7
FrankAdler Apr 27
@cxd8190102 ima 有 50GB 空间啊,怎么会不够用
|
8
cxd8190102 OP @FrankAdler #7 企业级的不行,而且还要解析和调用
|