V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
sch1111878
V2EX  ›  程序员

这些大模型也真的是狗

  •  
  •   sch1111878 · 2 天前 · 2956 次点击

    我目前在做图像识别和分类的相关开发工作,(识别性别年龄) 刚开始用的 clip 模型, 但是速度跟不上, 已经上了 5090 * 6, 加 l20 * 4, 速度都不太理想, 吞吐量不行, 后面问了同行, 他们用的是 MobileNetV2 训练调优的, 速度还不错, 我就也想试试了,

    训练一圈下来识别率很低(当然这里可能是我写的代码都不行

    训练 mobilenet 前问 claude 和 grok, 说 clip 的确笨重, 用 mobilenet 怎么好怎么好

    今天效果不满意, 我问 gemini3, 你猜怎么着, 他建议我用 clip 模型, 多模态啊 咋地, 你说他们狗不狗

    优点:
    懂语义:它看过几十亿张图,知道"骑马的人"长啥样,不会被背景搞晕。
    无需训练:不用洗数据,不用跑 epoch ,直接推理。
    泛化强:全身照、半身照、卡通图都能认。
    
    20 条回复    2025-11-24 11:55:14 +08:00
    paopjian
        1
    paopjian  
       2 天前
    如果只是识别性别年龄这种任务, 直接上 CLIP 有点大炮打蚊子了, 不应该是先用开源模型试验效果么, 比如 insightface 这种, 再考虑是自己训练/整理集,
    mobilenet 单纯速度快, 效果低太多了, backbone 有很多选择 mobilenet darknet resnet, 不用指着一个死磕, 你问 AI 什么他们肯定怎么回答你
    不懂你这狗不狗什么意思?
    v2gba
        2
    v2gba  
       2 天前
    可能和你的 prompt 也有关系
    大部分 AI 有附和用户的毛病(除非用户错的厉害)
    lloovve
        3
    lloovve  
       2 天前 via iPhone   ❤️ 2
    能不能有点自己的主见?这东西完全要靠自己去验证,具体性能和模型,具体训练的样本,还有优化都有关,不要妄想用简单的东西解决这么复杂的问题,现在人都没办法完全看图个图估计准确年龄。
    tool2dx
        4
    tool2dx  
       2 天前
    你说人狗我还能理解, AI 吐出来的就只是训练数据, 根据你的提问给最佳回答,有啥狗不狗的。

    人会骗你,AI 又不会。
    zizon
        5
    zizon  
       2 天前
    时代变了,hallucinate 都有人拨乱反正了.
    Alias4ck
        6
    Alias4ck  
       2 天前
    就是懒哈哈哈 总想一口吃个胖子
    sch1111878
        7
    sch1111878  
    OP
       2 天前
    @v2gba 这个我非常赞同, 很多时候我提示词 规则都写上, 你要有自己的主见, 不要因为我的质疑动摇, 还是不行...
    sch1111878
        8
    sch1111878  
    OP
       2 天前
    @paopjian 感谢回复, 我这小公司, 就几个人, 也没有相关资源去请教探讨, 真的难受

    我用 utkface 数据集训练的, 发现这个数据集的标注本身就有问题, 训练出来的也很离谱

    deepface 和 insightface 都试了,
    sch1111878
        9
    sch1111878  
    OP
       2 天前
    @tool2dx 我意思几个模型回答的前后不一致, 差异大
    sch1111878
        10
    sch1111878  
    OP
       2 天前
    @Alias4ck 不是懒, 是我自己太菜了, 公司又小, 外部资源也不多...
    sch1111878
        11
    sch1111878  
    OP
       2 天前
    @paopjian 一张图证明我用了 insightface, 主要这结果也太不靠谱了

    https://imgur.com/a/MbdmZ20
    aeron
        12
    aeron  
       2 天前
    大模型还是个猜词游戏,倾向于顺着你得思路去回答,这种问题你最好自己搜一下资料,有个自己的思路,然后去问大模型具体的实现方法细节之类的,不能没有一点想法的被大模型带着跑,容易进坑。
    sch1111878
        13
    sch1111878  
    OP
       2 天前
    @aeron 感谢
    sch1111878
        14
    sch1111878  
    OP
       2 天前
    一开始给我推荐 utkface 这个数据集, 我验证后发现非常不准, 然后提出质疑 又说这个老旧不行了
    gitlight
        15
    gitlight  
       2 天前
    你应该让模型帮你完成的是模型搜索调研任务,别让 AI 加入决策流程,语言模型又不能帮你背锅
    paopjian
        16
    paopjian  
       2 天前
    @sch1111878 我竟然觉得这没啥问题, 性别没问题, 年龄预测这个任务很难的, 顶多能判断是婴儿 青年 老年, 细致了光影一变就结果就变了
    sch1111878
        17
    sch1111878  
    OP
       1 天前
    @paopjian 这个的确啊 光线, 妆容都会影响, 但是业务上不认同
    sch1111878
        18
    sch1111878  
    OP
       1 天前
    @paopjian 其他我也就认了, utkface 和 fireface 这里数据集标注都很离谱, 现在去生产环境的数据自己打标来训练一版试试了, 浪费了好几天时间
    ykk
        19
    ykk  
       1 天前
    开源数据想训练工业模型是伪命题,开源模型都是屎,包括 insightface
    zhmouV2
        20
    zhmouV2  
       1 天前
    只能预测年龄段 别想着预测精确年龄了。。。
    海康的相机也采集不到那么精准的结构化数据
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3296 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 11:29 · PVG 19:29 · LAX 03:29 · JFK 06:29
    ♥ Do have faith in what you're doing.