大家在做目标检测落地时会考虑用 VL 大模型直接做识别吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

最近在测试 Qwen3-VL ，Doubao-seed-2 这类的目标识别能力，尤其是豆包在很多复杂场景不需要训练就能标注得非常准确，能够在用法上更加灵活，对比 yolo 需要大量的训练数据，不断迭代。想请教各位是否有尝试过用大模型做自动标注辅助 yolo 训练，或者直接用在生产环境？

大模型

目标检测

23 条回复 • 2026-04-02 22:09:15 +08:00

iasnull

19 小时 16 分钟前 via Android

看具体场景，各有优劣。比如最近的大模型在单字符级别的识别能力比较差，在比较大且明显的 2d 特征物体的识别能力就很厉害，能抗噪声和失真。

giserd

19 小时 12 分钟前

VL 模型开销远高于 yolo 之类的目标识别,单纯目标识别还是感觉 yolo 更靠谱

nno

19 小时 12 分钟前

对延迟敏感的不会用；不敏感的会用；

stinkytofux

19 小时 12 分钟前

标注必须准确 yolo 的检测效果才好, 现阶段大模型标注还必须人工检查, 如果一张一张的检查, 调整标注, 还不如直接人工标. 因为修改更麻烦, 所以我们还是人工标.

cryptovae

19 小时 9 分钟前

yolo 快，训练数据量上来，准确度提升
VL 模型慢，有幻觉，看你怎么取舍了

timeance

18 小时 21 分钟前

工业检测不会，最多用大模型来辅助识别小模型；常见的两个场景是
1. 比如小模型识别不了的异形体，大模型做标注然后转人工
2. 产线部署的时候用人工大模型来标注数据，也就是大模型教小模型怎么做

DigitalG

18 小时 18 分钟前

做过类似的尝试，试了市面上的 VLM 。忽略检测速度问题，只考虑效果的话。只判断分类或者有无的话，姑且还行。但如果使用提示词明确要求 VL 大模型给出障碍物和像素坐标，那就谈不上多准确。能给出的更多是语义信息，图里有什么，没什么，但在什么位置就不容里准确了。做分类可以，做检测不行。

可以辅助标注，人去优化标注框

WithoutSugarMiao

17 小时 39 分钟前

@DigitalG 我们这面是做工业场景的，之前用 yolo ，现在用 gemini3.0 最近换成了 3.1 。即便给像素坐标也非常准确。而且是很复杂的工业零件。

visper

17 小时 30 分钟前

yolo 快啊。

monstericeer

16 小时 57 分钟前

我这边是无人机高空场景，除了日常的目标识别外，需要做大量的语义分割/变化监测，在往大模型这方面探索。

monstericeer

16 小时 53 分钟前

@WithoutSugarMiao seed2.0 的像素坐标比较准，但是会有概率遗漏，gemini3.1 准确率怎么样？有没有考虑对 qwen-vl 微调之类的

xiaomushen

16 小时 1 分钟前

这得多慢多贵啊

commoccoom

15 小时 4 分钟前

@monstericeer 老哥，我们也在做无人机巡检项目。你们那里 UOM 审批好过吗？

monstericeer

14 小时 53 分钟前

@commoccoom 不好弄

commoccoom

14 小时 43 分钟前

@monstericeer 看来都麻烦，只有他们公安自己的方便。有些单位还去东部战区审批飞行

Maroontor

14 小时 11 分钟前

借楼问下，针对材料识别的你们用 ocr 还是 vl 啊

ifpig

13 小时 18 分钟前

@DigitalG 请问这种的需要找专门做了多模态输入训练的大模型，还是通用的千问之类的就可以？

DigitalG

12 小时 5 分钟前 via Android

@ifpig 需要支持多模态的。不过千问也是有的，比如 3.5plus ，3.6plus 。官方 api 文档里会给例子，一般可以把图像转成 base64 编码塞到 payload 或者给 url

kuhung

12 小时 3 分钟前

这个没必要 VL 吧简单模型效果好 VL 太重了宣传大于实际
你是开发，就走 sota 模型
你是老板，就往 VL 上面靠

TsubasaHanekaw

9 小时 46 分钟前

在做字符缺陷了

cairnechen

8 小时 53 分钟前

@monstericeer 通用大模型处理图片都会缩放，视觉估算坐标的时候漂移很严重，gemini 我没试过，GPT5.4 和 opus 基本都是残废，而且官方文档不可信，claude vision 文档说单边大于 1580px 总像素>1.15M 才会缩放，实际比这严格很多 800 * 600 都会缩放，一缩放就别指望坐标能准确了

wonderfulcxm

5 小时 48 分钟前

用的，旅游时就用 minimax token plan ，自带了一个里的 image 01 ，在 openclaw 里识别我随手拍的照片根据内容重命名放进 google drive ，识别的还挺好的。

wonderfulcxm

5 小时 47 分钟前

哦，你做训练啊，我还以为个人用，误会哈哈。