V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
sentinelK
V2EX  ›  程序员

LLM 时代的最大桎梏:概率与模糊,导致 AI 工具就像是中医圈子

  •  
  •   sentinelK · 13 小时 49 分钟前 · 1234 次点击
    在 claude code 源码泄露的前夜,v 站关于 LLM 工程化调用的帖子可以说是群魔乱舞。

    有说自己的 agent 思路好,和市场方案相比是“你可以理解为架构师和实习生的对比”,但就是说不出怎么好的:
    https://www.sunp.eu.org/t/1201268#reply6

    有说自己的方案“将整体协作效率提升 1300% 以上”的:
    https://www.sunp.eu.org/t/1201460#reply10

    在我看来,这些都是中医圈子用烂了的把戏。
    既,在一个黑盒下(中医是药理,AI 是 LLM 模型),只要我不提细节,我就有最终解释权。人有多大胆,地有多大产。张口就是好用,问怎么好用,你猜。

    不需要证明,不需要实验,更不需要对比。只要我烧 token 够快,agent 流程转的时间够长,我就是先进。
    第 1 条附言  ·  11 小时 30 分钟前
    而且 AI 的产品化应用中,还包含一个悖论。

    以目前的 AI Coding 场景为例。目前除了 Copilot ,所有的 agent 厂商都不装了,直接或间接的用 token 计费。
    他们压根就没有动力探索合理的 AI 应用逻辑。优化 AI 调用反而是断了自身的财路。

    token 烧的越多,他们越赚钱。还凸显他们的 agent 产品能力强。
    最终导致并不能盲目崇拜第一方的产品化实现逻辑。
    12 条回复    2026-04-02 17:04:04 +08:00
    JingW
        1
    JingW  
       13 小时 21 分钟前
    没办法,LLM 就是构建在概率上的,关键是这些 trick 有时候是有效的。
    你可以用 benchmark 来评估它,它也可以针对 benchmark 做优化,相互不耽误。
    hafuhafu
        2
    hafuhafu  
       13 小时 21 分钟前
    最后一段话我是认同的。
    现在一些趋势,夸张点说,就比如像翻译这种任务,恨不得上个好几个模型并行翻译,然后再安排几个对结果润色审核,最后可能再安排几个打分选出一个所谓的最优解...
    token 是烧的快了,效果好不好还真是个未知数。况且现在 token 就是实实在在的钱,不可能不考虑用量的。
    yigecaiji
        3
    yigecaiji  
       12 小时 53 分钟前 via Android
    和中医的一个区别是,你是真的能看到老中医 codex 和 Claude code ,但是也没有那些人吹得那么猛
    Vipcw95
        4
    Vipcw95  
       12 小时 33 分钟前
    所以出了各种基准测试来跑分
    coefu
        5
    coefu  
       12 小时 27 分钟前   ❤️ 1
    和 80 年代的 专家模型,本质上是一个路数的;如果你读过 The Bitter Lesson, 就能明白,这种把人类先验知识注入的模式,终究就是走不通的。
    kaixinyidian
        6
    kaixinyidian  
       12 小时 25 分钟前
    抽卡是吸 llm 留给我的最后一点刺激
    kuhung
        7
    kuhung  
       12 小时 21 分钟前   ❤️ 1
    同意 up 主观点。这波 AI 热,到处都是说自己消耗多少 token 的,就是不说有哪些作品。要不就是“现在不行,不代表半年后不行”“你不行,是你的工具不行”。LLM 这玩意儿,抽卡多巴胺分泌太大了。
    sentinelK
        8
    sentinelK  
    OP
       12 小时 4 分钟前
    @yigecaiji 即便是 claude code 这种第一方工具,其实他也很难自证他的工程化、产品化是合理且足够优化的。LLM 靠大力出奇迹其实可以理解,毕竟是统计学的涌现。

    但产品化工具也靠大力出奇迹 while(true),其实就很难令人信服这是最优方案。
    TerryBlues
        9
    TerryBlues  
       11 小时 58 分钟前
    都是在实践和摸索中前进的,很多产物确实会有民科味道。

    我个人是反对把人类组织的糟粕搬给 agent 的,太多博眼球的东西了。简单保持规划——执行——审计的角色也许就可以了——也许以后模型能力变得更强,连这个也不需要了呢。
    mcgga
        10
    mcgga  
       11 小时 2 分钟前
    感觉根本原因还是神经网络目前是一个黑盒。只要结果对了或者符合预期,你怎么吹别人也说不了什么,也没办法反驳。这就造成了最终还是大力出奇迹来的简单粗暴,省时间省脑力...
    cairnechen
        11
    cairnechen  
       10 小时 54 分钟前
    从 command hooks 到 MCP Skill 每一步都在增加确定性,这个发展方向已经很说明问题了吧
    takeshima
        12
    takeshima  
       10 小时 52 分钟前 via iPhone
    这就是 AI 的本质啊,LLM 本质上还是在计算下一个最高概率的 token ,这也是为什么 AI 生成一定要 review ,跟传统的编译器、框架、脚手架有本质差别,后者的工作是确定性的,你不用 revie 编译器输出的二进制
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   965 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 19:56 · PVG 03:56 · LAX 12:56 · JFK 15:56
    ♥ Do have faith in what you're doing.