V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
EchoPrince
V2EX  ›  Local LLM

想在本地部署 OCR 服务,解析美团的外卖订单截图,求推荐一个好用的 OCR 模型

  •  1
     
  •   EchoPrince · 12 小时 24 分钟前 · 2079 次点击

    公司做的是美团业务,需要定期解析一批美团的订单截图(也有一些是手机相机拍的订单页面图片),提取出其中的订单号码。 我试用了下腾讯的 ocr 识别成功率很高,就是太贵了,图片量很大遭不住。哪位老哥研究过 OCR ,能不能推荐一个适合本地部署的,公司有 5060 显卡。

    32 条回复    2026-04-20 22:10:14 +08:00
    superhuai
        1
    superhuai  
       12 小时 16 分钟前
    偷偷摸摸用之前微信提取的那个 ocr , 应该不要钱。
    Wao
        2
    Wao  
       12 小时 14 分钟前
    deepseek ocr
    Mogugugugu
        3
    Mogugugugu  
       12 小时 8 分钟前   ❤️ 1
    Paddle OCR 试试
    66beta
        4
    66beta  
       12 小时 0 分钟前
    听上去 Gemini 本地模型 Gemma 4 就能做?而且显卡错错有余
    Leon6868
        5
    Leon6868  
       11 小时 12 分钟前
    也许用多模态大模型比普通 OCR 好,收集拍摄的订单图片对于基于文字分隔的 OCR 而言还是太难了
    raptor
        6
    raptor  
       11 小时 8 分钟前
    @Mogugugugu 百度这个确实还行
    diudiuu
        7
    diudiuu  
       10 小时 56 分钟前
    gemma+ocr 一套

    https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF/tree/main

    mmproj-BF16.gguf 这个是图片模型
    honda720
        8
    honda720  
       10 小时 56 分钟前
    Paddle OCR 就是干这个的,5060 应该能搞个稍微好点的
    xyooyx
        9
    xyooyx  
       10 小时 48 分钟前
    Topdu/OpenOCR 前段时期试了个小型的,效果不错
    defunct9
        10
    defunct9  
       10 小时 48 分钟前
    mmproj-BF16.gguf 这个是多模态用的,https://rendoumi.com/posts/20260409-gemma4_install/
    wnpllrzodiac
        11
    wnpllrzodiac  
       10 小时 45 分钟前
    rapid OCR
    cheng6563
        12
    cheng6563  
       10 小时 42 分钟前
    跑个 qwen 看效果怎样。
    labubu
        13
    labubu  
       10 小时 38 分钟前
    百度 Paddle server 版本
    iorilu
        14
    iorilu  
       10 小时 32 分钟前
    关注下, 模型太多了

    现在有什么排行榜或确认的评测, 那几个模型领先吗
    TuringGooner
        15
    TuringGooner  
       10 小时 28 分钟前
    之前不是有大佬逆向出来一个微信的 OCR 组件,纯算法的
    Seanfuck
        16
    Seanfuck  
       10 小时 27 分钟前
    Paddle OCR 基本上最强,有 cpu 版本,有现成的容器镜像。
    picone
        17
    picone  
       10 小时 20 分钟前
    paddle OCR ,性能也不错
    BlueSkyXN
        18
    BlueSkyXN  
       10 小时 8 分钟前
    我一般用 MAC 自带的
    pandaPapa
        19
    pandaPapa  
       10 小时 5 分钟前
    deepseek ocr 好像免费的
    SmallBlueZhao
        20
    SmallBlueZhao  
       9 小时 59 分钟前
    第一次看见帖子里面推荐百度家的东西比别家的多。。。
    whitewatercn
        21
    whitewatercn  
       9 小时 31 分钟前
    之前试过,paddle-ocr-vl1.5 足够好用,且开销不大,跟着这两个教程玩就足够了

    先部署 https://forum.beginner.center/t/topic/2677

    再调用 https://forum.beginner.center/t/topic/2681
    whitewatercn
        22
    whitewatercn  
       9 小时 29 分钟前
    @SmallBlueZhao #20
    有一说一百度在 ocr 方面的积淀很深,不知道多少年前就开始提供 ocr api 了,大模型出来以前,他们的 api 就很好用
    tianjiyao
        23
    tianjiyao  
       8 小时 46 分钟前
    @SmallBlueZhao 这个你别说 paddle OCR 是这个 行业的翘首。。。百度这个是真的不错。更加厌恶肉饼了。。。。。 多好的牌。。打成这样子稀烂
    ShawnShi
        24
    ShawnShi  
    PRO
       8 小时 44 分钟前
    https://aistudio.baidu.com/paddleocr 提供免费服务 效果不错的
    mashimaroinfo1
        25
    mashimaroinfo1  
       8 小时 34 分钟前
    这个事儿我亲手试过, 最精准的是 GLM-OCR(GGUF), 好像 0.9b 。

    次一等(但更快)RapidOCR 。

    别信 Tesseract OCR, 各种意外错误。

    Les1ie
        26
    Les1ie  
       8 小时 16 分钟前
    直接用 paddleocr ,或者用基于他而开的框架 rapidOCR 。开发和部署都超级简单,不吃资源,比如我上个月搓的简易验证码识别,简单粗暴又高效 https://github.com/IanSmith123/easy_captcha :)
    livelyyongheng1
        27
    livelyyongheng1  
       8 小时 7 分钟前
    那必然是 paddle
    NizumaEiji
        28
    NizumaEiji  
       7 小时 58 分钟前
    paddle ocr 吧 日常用比较稳
    没必要上多模态的 llm 吧
    AiBoy
        29
    AiBoy  
       7 小时 1 分钟前
    识别中文手写最强的是谁呢?
    superPONY
        30
    superPONY  
       6 小时 39 分钟前
    巧了,最近在做的项目刚好测了几个多模态/OCR 模型,你可以参考我的项目 readme 文档,https://github.com/RAGDock/RAGDock 。有用的的话求个 Star 哈哈哈
    andlp
        31
    andlp  
       6 小时 25 分钟前
    yolo 效果比大模型好
    定位订单的区域,针对这个字体识别,然后只识别 0-9 这 10 个数字 效果比什么大模型都要好的多
    berry10086
        32
    berry10086  
       5 小时 54 分钟前
    easyocr 也可以
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   971 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 82ms · UTC 20:04 · PVG 04:04 · LAX 13:04 · JFK 16:04
    ♥ Do have faith in what you're doing.