V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
monstericeer
V2EX  ›  程序员

大家在做目标检测落地时会考虑用 VL 大模型直接做识别吗?

  •  1
     
  •   monstericeer · 19 小时 23 分钟前 · 1951 次点击

    最近在测试 Qwen3-VL ,Doubao-seed-2 这类的目标识别能力,尤其是豆包在很多复杂场景不需要训练就能标注得非常准确,能够在用法上更加灵活,对比 yolo 需要大量的训练数据,不断迭代。 想请教各位是否有尝试过用大模型做自动标注辅助 yolo 训练,或者直接用在生产环境?

    23 条回复    2026-04-02 22:09:15 +08:00
    iasnull
        1
    iasnull  
       19 小时 16 分钟前 via Android
    看具体场景,各有优劣。比如最近的大模型在单字符级别的识别能力比较差,在比较大且明显的 2d 特征物体的识别能力就很厉害,能抗噪声和失真。
    giserd
        2
    giserd  
       19 小时 12 分钟前
    VL 模型开销远高于 yolo 之类的目标识别,单纯目标识别还是感觉 yolo 更靠谱
    nno
        3
    nno  
       19 小时 12 分钟前
    对延迟敏感的不会用;不敏感的会用;
    stinkytofux
        4
    stinkytofux  
       19 小时 12 分钟前
    标注必须准确 yolo 的检测效果才好, 现阶段大模型标注还必须人工检查, 如果一张一张的检查, 调整标注, 还不如直接人工标. 因为修改更麻烦, 所以我们还是人工标.
    cryptovae
        5
    cryptovae  
       19 小时 9 分钟前
    yolo 快,训练数据量上来,准确度提升
    VL 模型慢,有幻觉,看你怎么取舍了
    timeance
        6
    timeance  
       18 小时 21 分钟前
    工业检测不会,最多用大模型来辅助识别小模型;常见的两个场景是
    1. 比如小模型识别不了的异形体,大模型做标注然后转人工
    2. 产线部署的时候用人工大模型来标注数据,也就是大模型教小模型怎么做
    DigitalG
        7
    DigitalG  
       18 小时 18 分钟前
    做过类似的尝试,试了市面上的 VLM 。忽略检测速度问题,只考虑效果的话。只判断分类或者有无的话,姑且还行。但如果使用提示词明确要求 VL 大模型给出障碍物和像素坐标,那就谈不上多准确。能给出的更多是语义信息,图里有什么,没什么,但在什么位置就不容里准确了。 做分类可以,做检测不行。

    可以辅助标注,人去优化标注框
    WithoutSugarMiao
        8
    WithoutSugarMiao  
       17 小时 39 分钟前
    @DigitalG 我们这面是做工业场景的,之前用 yolo ,现在用 gemini3.0 最近换成了 3.1 。即便给像素坐标也非常准确。而且是很复杂的工业零件。
    visper
        9
    visper  
       17 小时 30 分钟前
    yolo 快啊。
    monstericeer
        10
    monstericeer  
    OP
       16 小时 57 分钟前
    我这边是无人机高空场景,除了日常的目标识别外,需要做大量的语义分割/变化监测,在往大模型这方面探索。
    monstericeer
        11
    monstericeer  
    OP
       16 小时 53 分钟前
    @WithoutSugarMiao seed2.0 的像素坐标比较准,但是会有概率遗漏,gemini3.1 准确率怎么样?有没有考虑对 qwen-vl 微调之类的
    xiaomushen
        12
    xiaomushen  
       16 小时 1 分钟前
    这得多慢多贵啊
    commoccoom
        13
    commoccoom  
       15 小时 4 分钟前
    @monstericeer 老哥,我们也在做无人机巡检项目。你们那里 UOM 审批好过吗?
    monstericeer
        14
    monstericeer  
    OP
       14 小时 53 分钟前
    @commoccoom 不好弄
    commoccoom
        15
    commoccoom  
       14 小时 43 分钟前
    @monstericeer 看来都麻烦,只有他们公安自己的方便。有些单位还去东部战区审批飞行
    Maroontor
        16
    Maroontor  
       14 小时 11 分钟前
    借楼问下,针对材料识别的你们用 ocr 还是 vl 啊
    ifpig
        17
    ifpig  
       13 小时 18 分钟前
    @DigitalG 请问这种的需要找专门做了多模态输入训练的大模型,还是通用的千问之类的就可以?
    DigitalG
        18
    DigitalG  
       12 小时 5 分钟前 via Android
    @ifpig 需要支持多模态的。不过千问也是有的,比如 3.5plus ,3.6plus 。官方 api 文档里会给例子,一般可以把图像转成 base64 编码塞到 payload 或者给 url
    kuhung
        19
    kuhung  
       12 小时 3 分钟前
    这个没必要 VL 吧 简单模型效果好 VL 太重了 宣传大于实际
    你是开发,就走 sota 模型
    你是老板,就往 VL 上面靠
    TsubasaHanekaw
        20
    TsubasaHanekaw  
       9 小时 46 分钟前
    在做字符缺陷了
    cairnechen
        21
    cairnechen  
       8 小时 53 分钟前
    @monstericeer 通用大模型处理图片都会缩放,视觉估算坐标的时候漂移很严重,gemini 我没试过,GPT5.4 和 opus 基本都是残废,而且官方文档不可信,claude vision 文档说单边大于 1580px 总像素>1.15M 才会缩放,实际比这严格很多 800 * 600 都会缩放,一缩放就别指望坐标能准确了
    wonderfulcxm
        22
    wonderfulcxm  
       5 小时 48 分钟前
    用的,旅游时就用 minimax token plan ,自带了一个里的 image 01 ,在 openclaw 里识别我随手拍的照片根据内容重命名放进 google drive ,识别的还挺好的。
    wonderfulcxm
        23
    wonderfulcxm  
       5 小时 47 分钟前
    哦,你做训练啊,我还以为个人用,误会哈哈。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   965 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 19:56 · PVG 03:56 · LAX 12:56 · JFK 15:56
    ♥ Do have faith in what you're doing.