brightrystal
V2EX  ›  问与答

OCR 方案的聊天记录提取

  •  
  •   brightrystal · Mar 19, 2024 · 2897 views
    This topic created in 797 days ago, the information mentioned may be changed or developed.

    如题,最近研究了很多提取客户端聊天记录的方案,但是要么是 Hook 要么是 wechaty 这种,总是担心因为特征等原因导致封号,所以想尝试一下纯使用计算机视觉的方案去提取聊天记录

    1710822464020.png

    发现效果还行

    原理就是先取得边框再切割记录

    1710822545098.png

    最后使用 OCR 提取信息就行了,不知道为啥市面上很少看到这种方案,除了慢还有其他原因嘛?

    17 replies    2024-03-19 20:20:25 +08:00
    brightrystal
        1
    brightrystal  
    OP
       Mar 19, 2024
    简单修改了下参数,其他的软件适配也很简单,相比各个软件去 hook 似乎这种方案也更通用吧

    ![1710825615951.png]( https://img2.imgtp.com/2024/03/19/ac4NA8Tw.png)
    ztbz123
        2
    ztbz123  
       Mar 19, 2024
    大佬,这个有具体技术实现或代码分享吗,近期也在研究 工作群聊天记录 保存和总结 ,想借鉴一下。
    malusama
        3
    malusama  
       Mar 19, 2024
    你能拿到设备直接解密本地的数据库啊。。。那么复杂干嘛
    brightrystal
        4
    brightrystal  
    OP
       Mar 19, 2024
    @malusama uia 吗?还是?一般这些客户端好像没有接口暴露出来吧
    brightrystal
        5
    brightrystal  
    OP
       Mar 19, 2024
    @ztbz123 过段时间吧,里面耦合了太多业务代码了,我用的是 opencv
    ztbz123
        6
    ztbz123  
       Mar 19, 2024
    @alsritter1 ok 已关注,问问,对于聊天记录刷屏翻页的要怎么处理,滚动吗?还有基于 opencv 的,一次只能监控一个群(打开界面),如果是多个群消息需要采集和分析,是不是就要开多台机器和窗口运行 cv 代码?
    brightrystal
        7
    brightrystal  
    OP
       Mar 19, 2024
    @ztbz123 滚动这块没啥好办法,我是滚动截图,最后再合成的方案,目前这个方案主要是 OCR 的速度有点慢,我用的是 RapidOCR ,满屏消息需要 7 秒左右,不知道有没有更快的开源 OCR 工具
    phx1
        8
    phx1  
       Mar 19, 2024
    能拿到原始数据为啥要搞计算机视觉?
    csulyb
        9
    csulyb  
       Mar 19, 2024
    这不是侵犯隐私吗 这么多人在干这种事?
    brightrystal
        10
    brightrystal  
    OP
       Mar 19, 2024
    @phx1 怎么拿?
    gdfsjunjun
        11
    gdfsjunjun  
       Mar 19, 2024
    我记得不是有可以提取本地数据库,然后备份聊天记录吗?上个月看到的,不记得在哪看到的。反正关键词就是备份。
    brightrystal
        12
    brightrystal  
    OP
       Mar 19, 2024
    @gdfsjunjun 不是备份记录的需求,是自动化客服的场景,主要是想要快速对接多平台,一个个去写太累了
    malusama
        13
    malusama  
       Mar 19, 2024
    https://www.forensicfocus.com/articles/decrypt-wechat-enmicromsgdb-database/
    wechat 是可以解密本地数据库的, 就是设备得 root
    malusama
        14
    malusama  
       Mar 19, 2024
    企业微信也有 api 直接获取消息的啊?
    brightrystal
        15
    brightrystal  
    OP
       Mar 19, 2024
    @malusama 企业微信的 api 我知道,但是得收费,我的目标群体大部分都是个体户,让人家掏这个钱不太现实
    phx1
        16
    phx1  
       Mar 19, 2024
    musi
        17
    musi  
       Mar 19, 2024 via iPhone
    @csulyb #9 我看我自己和我朋友的聊天记录侵犯了你的隐私?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5746 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 57ms · UTC 03:40 · PVG 11:40 · LAX 20:40 · JFK 23:40
    ♥ Do have faith in what you're doing.