公司做的是美团业务,需要定期解析一批美团的订单截图(也有一些是手机相机拍的订单页面图片),提取出其中的订单号码。 我试用了下腾讯的 ocr 识别成功率很高,就是太贵了,图片量很大遭不住。哪位老哥研究过 OCR ,能不能推荐一个适合本地部署的,公司有 5060 显卡。
1
superhuai 12 小时 16 分钟前
偷偷摸摸用之前微信提取的那个 ocr , 应该不要钱。
|
2
Wao 12 小时 14 分钟前
deepseek ocr
|
3
Mogugugugu 12 小时 8 分钟前 Paddle OCR 试试
|
4
66beta 12 小时 0 分钟前
听上去 Gemini 本地模型 Gemma 4 就能做?而且显卡错错有余
|
5
Leon6868 11 小时 12 分钟前
也许用多模态大模型比普通 OCR 好,收集拍摄的订单图片对于基于文字分隔的 OCR 而言还是太难了
|
6
raptor 11 小时 8 分钟前
@Mogugugugu 百度这个确实还行
|
7
diudiuu 10 小时 56 分钟前
gemma+ocr 一套
https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF/tree/main mmproj-BF16.gguf 这个是图片模型 |
8
honda720 10 小时 56 分钟前
Paddle OCR 就是干这个的,5060 应该能搞个稍微好点的
|
9
xyooyx 10 小时 48 分钟前
Topdu/OpenOCR 前段时期试了个小型的,效果不错
|
10
defunct9 10 小时 48 分钟前
mmproj-BF16.gguf 这个是多模态用的,https://rendoumi.com/posts/20260409-gemma4_install/
|
11
wnpllrzodiac 10 小时 45 分钟前
rapid OCR
|
12
cheng6563 10 小时 42 分钟前
跑个 qwen 看效果怎样。
|
13
labubu 10 小时 38 分钟前
百度 Paddle server 版本
|
14
iorilu 10 小时 32 分钟前
关注下, 模型太多了
现在有什么排行榜或确认的评测, 那几个模型领先吗 |
15
TuringGooner 10 小时 28 分钟前
之前不是有大佬逆向出来一个微信的 OCR 组件,纯算法的
|
16
Seanfuck 10 小时 27 分钟前
Paddle OCR 基本上最强,有 cpu 版本,有现成的容器镜像。
|
17
picone 10 小时 20 分钟前
paddle OCR ,性能也不错
|
18
BlueSkyXN 10 小时 8 分钟前
我一般用 MAC 自带的
|
19
pandaPapa 10 小时 5 分钟前
deepseek ocr 好像免费的
|
20
SmallBlueZhao 9 小时 59 分钟前
|
21
whitewatercn 9 小时 31 分钟前
之前试过,paddle-ocr-vl1.5 足够好用,且开销不大,跟着这两个教程玩就足够了
先部署 https://forum.beginner.center/t/topic/2677 再调用 https://forum.beginner.center/t/topic/2681 |
22
whitewatercn 9 小时 29 分钟前
@SmallBlueZhao #20
有一说一百度在 ocr 方面的积淀很深,不知道多少年前就开始提供 ocr api 了,大模型出来以前,他们的 api 就很好用 |
23
tianjiyao 8 小时 46 分钟前
@SmallBlueZhao 这个你别说 paddle OCR 是这个 行业的翘首。。。百度这个是真的不错。更加厌恶肉饼了。。。。。 多好的牌。。打成这样子稀烂
|
24
ShawnShi PRO https://aistudio.baidu.com/paddleocr 提供免费服务 效果不错的
|
25
mashimaroinfo1 8 小时 34 分钟前
|
26
Les1ie 8 小时 16 分钟前
直接用 paddleocr ,或者用基于他而开的框架 rapidOCR 。开发和部署都超级简单,不吃资源,比如我上个月搓的简易验证码识别,简单粗暴又高效 https://github.com/IanSmith123/easy_captcha :)
|
27
livelyyongheng1 8 小时 7 分钟前
那必然是 paddle
|
28
NizumaEiji 7 小时 58 分钟前
paddle ocr 吧 日常用比较稳
没必要上多模态的 llm 吧 |
29
AiBoy 7 小时 1 分钟前
识别中文手写最强的是谁呢?
|
30
superPONY 6 小时 39 分钟前
巧了,最近在做的项目刚好测了几个多模态/OCR 模型,你可以参考我的项目 readme 文档,https://github.com/RAGDock/RAGDock 。有用的的话求个 Star 哈哈哈
|
31
andlp 6 小时 25 分钟前
yolo 效果比大模型好
定位订单的区域,针对这个字体识别,然后只识别 0-9 这 10 个数字 效果比什么大模型都要好的多 |
32
berry10086 5 小时 54 分钟前
easyocr 也可以
|