milestance

技术类语音识别(会议记录)的工具推荐和讨论

  •  
  •   milestance · Sep 5, 2025 · 1748 views
    This topic created in 262 days ago, the information mentioned may be changed or developed.
    最近在寻找比较好的可以做技术类语音识别(会议记录)的工具,主要下面几点诉求:
    1.比较好的支持 DICITION 自定义字典,例如很多专有名词,语音模型没有训练过
    2.需要能够比较好的识别中英文混合,具备识别 SPEAKER 的能力,识别正确率较高,至少能够作为 AI 润色的输入
    3.能够监听识别 MAC 上 APP 的语音流,例如微信,腾讯会议等


    个人尝试了下述方案:
    1.MAC WHISPER 评分 5.0
    使用了内置默认模型:openai-whisper-large3 600MB 版本和 Large v3 turbo ,效果不是特别好,英文勉强能识别部分,连中文都识别率不太高,支持 SPEAKER 区分,支持自定义字典,但是自定义字典貌似并未生效

    2.讯飞听见 评分 5.5
    付费使用了音频上传功能,效果比 MAC WHISPER 略好,自定义字典同样没有生效,脚本的编辑页面相对友好一些,中文仍然存在一些问题,比 MAC WHISPER 略好点

    3.通义听悟 评分 6.0
    唯一勉强能用的语音识别工具,只是勉强,自定义字典同样没有生效,界面和讯飞听见类似,中文英文效果都比上面两者好,但是离傻瓜式使用仍然有具体,文本仍然要手工调整很多

    看看大家有没有什么比较好的工具或者工作流,可以一起讨论一下。
    4 replies    2025-09-06 14:46:54 +08:00
    yuanxing008
        1
    yuanxing008  
       Sep 5, 2025
    其实这类工具最大的问题就是如何有效识别用户的不正确发音导致的识别异常,同一个专业术语单词 让十个人来发音可能会有三四种发音
    380cc
        2
    380cc  
       Sep 5, 2025
    mac whisper 我用了好几年了,感觉这款听写效果越来越好,从一开始的 cpp 到现在用 kit V2,速度有提升,幻听有下降,非中文的听写质量非常不错。中文听写质量不行,可以在这个 app 里自定义国内 AI 运营商的 api 进行修改,诸如 deepseek, 通义千问,这样生成的中文效果还不错的。大模型不要选 v3 ,要选 v2 不含任何后缀的。
    565656
        3
    565656  
       Sep 5, 2025
    chatgpt 有会议模式?
    milestance
        4
    milestance  
    OP
       Sep 6, 2025
    之前看到在 LINUX.DO 有人推荐 GEMINI 2.5 PRO,这个我还没有测试,看有人反馈长时间音频不支持
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   983 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 22:10 · PVG 06:10 · LAX 15:10 · JFK 18:10
    ♥ Do have faith in what you're doing.