LLM 时代的最大桎梏：概率与模糊，导致 AI 工具就像是中医圈子 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

在 claude code 源码泄露的前夜，v 站关于 LLM 工程化调用的帖子可以说是群魔乱舞。

有说自己的 agent 思路好，和市场方案相比是“你可以理解为架构师和实习生的对比”，但就是说不出怎么好的：
https://www.sunp.eu.org/t/1201268#reply6

有说自己的方案“将整体协作效率提升 1300% 以上”的：
https://www.sunp.eu.org/t/1201460#reply10

在我看来，这些都是中医圈子用烂了的把戏。
既，在一个黑盒下（中医是药理，AI 是 LLM 模型），只要我不提细节，我就有最终解释权。人有多大胆，地有多大产。张口就是好用，问怎么好用，你猜。

不需要证明，不需要实验，更不需要对比。只要我烧 token 够快，agent 流程转的时间够长，我就是先进。

第 1 条附言 · 11 小时 30 分钟前

而且 AI 的产品化应用中，还包含一个悖论。

以目前的 AI Coding 场景为例。目前除了 Copilot ，所有的 agent 厂商都不装了，直接或间接的用 token 计费。
他们压根就没有动力探索合理的 AI 应用逻辑。优化 AI 调用反而是断了自身的财路。

token 烧的越多，他们越赚钱。还凸显他们的 agent 产品能力强。
最终导致并不能盲目崇拜第一方的产品化实现逻辑。

12 条回复 • 2026-04-02 17:04:04 +08:00

1

JingW

13 小时 21 分钟前

没办法，LLM 就是构建在概率上的，关键是这些 trick 有时候是有效的。
你可以用 benchmark 来评估它，它也可以针对 benchmark 做优化，相互不耽误。

2

hafuhafu

13 小时 21 分钟前

最后一段话我是认同的。
现在一些趋势,夸张点说，就比如像翻译这种任务,恨不得上个好几个模型并行翻译,然后再安排几个对结果润色审核,最后可能再安排几个打分选出一个所谓的最优解...
token 是烧的快了,效果好不好还真是个未知数。况且现在 token 就是实实在在的钱，不可能不考虑用量的。

3

yigecaiji

12 小时 53 分钟前 via Android

和中医的一个区别是，你是真的能看到老中医 codex 和 Claude code ，但是也没有那些人吹得那么猛

4

Vipcw95

12 小时 33 分钟前

所以出了各种基准测试来跑分

5

coefu

12 小时 27 分钟前

1

和 80 年代的专家模型，本质上是一个路数的；如果你读过 The Bitter Lesson, 就能明白，这种把人类先验知识注入的模式，终究就是走不通的。

6

kaixinyidian

12 小时 25 分钟前

抽卡是吸 llm 留给我的最后一点刺激

7

kuhung

12 小时 21 分钟前

1

同意 up 主观点。这波 AI 热，到处都是说自己消耗多少 token 的，就是不说有哪些作品。要不就是“现在不行，不代表半年后不行”“你不行，是你的工具不行”。LLM 这玩意儿，抽卡多巴胺分泌太大了。

8

sentinelK

OP

12 小时 4 分钟前

@yigecaiji 即便是 claude code 这种第一方工具，其实他也很难自证他的工程化、产品化是合理且足够优化的。LLM 靠大力出奇迹其实可以理解，毕竟是统计学的涌现。

但产品化工具也靠大力出奇迹 while(true)，其实就很难令人信服这是最优方案。

9

TerryBlues

11 小时 58 分钟前

都是在实践和摸索中前进的，很多产物确实会有民科味道。

我个人是反对把人类组织的糟粕搬给 agent 的，太多博眼球的东西了。简单保持规划——执行——审计的角色也许就可以了——也许以后模型能力变得更强，连这个也不需要了呢。

10

mcgga

11 小时 2 分钟前

感觉根本原因还是神经网络目前是一个黑盒。只要结果对了或者符合预期，你怎么吹别人也说不了什么，也没办法反驳。这就造成了最终还是大力出奇迹来的简单粗暴，省时间省脑力...

11

cairnechen

10 小时 54 分钟前

从 command hooks 到 MCP Skill 每一步都在增加确定性，这个发展方向已经很说明问题了吧

12

takeshima

10 小时 52 分钟前 via iPhone

这就是 AI 的本质啊，LLM 本质上还是在计算下一个最高概率的 token ，这也是为什么 AI 生成一定要 review ，跟传统的编译器、框架、脚手架有本质差别，后者的工作是确定性的，你不用 revie 编译器输出的二进制

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 965 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 21ms · UTC 19:56 · PVG 03:56 · LAX 12:56 · JFK 15:56
♥ Do have faith in what you're doing.