1
JingW 13 小时 21 分钟前
没办法,LLM 就是构建在概率上的,关键是这些 trick 有时候是有效的。
你可以用 benchmark 来评估它,它也可以针对 benchmark 做优化,相互不耽误。 |
2
hafuhafu 13 小时 21 分钟前
最后一段话我是认同的。
现在一些趋势,夸张点说,就比如像翻译这种任务,恨不得上个好几个模型并行翻译,然后再安排几个对结果润色审核,最后可能再安排几个打分选出一个所谓的最优解... token 是烧的快了,效果好不好还真是个未知数。况且现在 token 就是实实在在的钱,不可能不考虑用量的。 |
3
yigecaiji 12 小时 53 分钟前 via Android
和中医的一个区别是,你是真的能看到老中医 codex 和 Claude code ,但是也没有那些人吹得那么猛
|
4
Vipcw95 12 小时 33 分钟前
所以出了各种基准测试来跑分
|
5
coefu 12 小时 27 分钟前 和 80 年代的 专家模型,本质上是一个路数的;如果你读过 The Bitter Lesson, 就能明白,这种把人类先验知识注入的模式,终究就是走不通的。
|
6
kaixinyidian 12 小时 25 分钟前
抽卡是吸 llm 留给我的最后一点刺激
|
7
kuhung 12 小时 21 分钟前 同意 up 主观点。这波 AI 热,到处都是说自己消耗多少 token 的,就是不说有哪些作品。要不就是“现在不行,不代表半年后不行”“你不行,是你的工具不行”。LLM 这玩意儿,抽卡多巴胺分泌太大了。
|
8
sentinelK OP @yigecaiji 即便是 claude code 这种第一方工具,其实他也很难自证他的工程化、产品化是合理且足够优化的。LLM 靠大力出奇迹其实可以理解,毕竟是统计学的涌现。
但产品化工具也靠大力出奇迹 while(true),其实就很难令人信服这是最优方案。 |
9
TerryBlues 11 小时 58 分钟前
都是在实践和摸索中前进的,很多产物确实会有民科味道。
我个人是反对把人类组织的糟粕搬给 agent 的,太多博眼球的东西了。简单保持规划——执行——审计的角色也许就可以了——也许以后模型能力变得更强,连这个也不需要了呢。 |
10
mcgga 11 小时 2 分钟前
感觉根本原因还是神经网络目前是一个黑盒。只要结果对了或者符合预期,你怎么吹别人也说不了什么,也没办法反驳。这就造成了最终还是大力出奇迹来的简单粗暴,省时间省脑力...
|
11
cairnechen 10 小时 54 分钟前
从 command hooks 到 MCP Skill 每一步都在增加确定性,这个发展方向已经很说明问题了吧
|
12
takeshima 10 小时 52 分钟前 via iPhone
这就是 AI 的本质啊,LLM 本质上还是在计算下一个最高概率的 token ,这也是为什么 AI 生成一定要 review ,跟传统的编译器、框架、脚手架有本质差别,后者的工作是确定性的,你不用 revie 编译器输出的二进制
|