coefu

coefu

V2EX 第 616381 号会员,加入于 2023-02-28 17:15:35 +08:00
根据 coefu 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
coefu 最近回复了
@philobscur #20 你什么技术底色,符合我对你的认知定位。但凡你懂点 web 之外的东西,算我对你高看一眼。
@xing7673 阿里都要闭源卖 api 了,还指望开源能替代它自己 api 的东西?都成立了 Token 顶级组织,明摆着要让你们围绕各种 app 消费 tokens ,真是井底之蛙,夏虫语冰。
@philobscur #10 不要看说什么,等放出来了再来打我脸,ok ?真放出来,确实强,那是我这次错了。
@MuyuQ #11 因为从 2024 年春天开始,这两年来我几乎每个开源模型的中小尺寸都尝试过。


我主要集中在神经网络底层前沿技术的探索能力。Transformer 的变种实验,SNN 脉冲神经网络的变种实验,DRL 里自定义网络实验。我提供 idea ,模型给代码,我跑结果,模型 debug ,这个 loop 。在线的官方模型 和 本地部署的 中小尺寸,比照能力。

有一讲一,我去年夏天用 qwen 在线的模型,一起 debug DRL ,几度把我带到了坑里。

后面换 chatgpt ,效果好一点,但是胡说八道依然存在,给出的论文索引大部分都是假的。

后面用 gemini ,就在上上周,我用 gemini ,再不知情的情况下,我们(我提供 idea ,gemini 负责代码实现)从 0 复现了 snn 里程碑的论文( https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2015.00099/full )。就这感觉,qwen/chatgpt 从来没有给我带来过。在 qwen3.5 开源的同时,我就本地用了一个下午,强确实强,但那是 gemma4 没开源的时候。昨天我用了 gemma4 一下午,对比在线 gemini ,同样的问题,几乎能给出 90%相似度的解决方案。你说,我激不激动? gemini 的能力,我是深度认可的,因为在一些还没有结论的问题上,确实能辅助一起探索,关键是几乎不胡说八道。

最后,如果只是一些 web 前后端代码 coding ,讲真,那只是很中规中矩的使用,感受不到上限的提升。
@unt 我觉得,和 gemini 来比,gemini 现在搞的这种情绪价值提供,反而让人不客观了。今天,试用了一下午 gemma4 31B,可能是 system prompt 没有设置什么情绪相关,反而更理性客观,没有 gemini 的夸夸味。
@unt 当前开源里,普罗大众能用到的最强悍模型了。2* 2080ti 22g ,不到 4k 的成本,跑 31B Q8 ,估计能有个 10 Token/s 的速度,凑合能用。
@philobscur qwen3.5 就是阿里开源的最后绝唱了,你还等什么 3.6 咯,事情都搞不明白。
非常强悍,g 厂出手,都是弟弟。

31B ,要真正跑起 256k 的 context ,Q8 起码要 64G 显存。

对于一般 web 代码来说,体现不出来它的上限。当然,一般人也用不到它的上限。

现在打榜的 benchmark ,都是对标 博士级别的水平,只有你的 case 是真正的挑战,才知道和别的差距。
@tftNExtLife #14 你在你自己的世界里,玩耍的开心就行。不用再回复了。
@tftNExtLife #10 要是你这个真落实到实际生活中了,才可怕。以后你接了哪些项目,先发上来,让哥们儿知晓一下。

那篇文章太长了,我认为你肯定没有仔细完整的看完过。中心思想是 壳是过渡状态,LLM 本身能力的提升 会让 harness 这个壳 一直变化,一直迭代堵 LLM 的能力短板。至于 多 agent ,就和社会化治理一样多样化,甚至很难决出个第一。所以,你说你的 多 agent 方案,怎么样怎么样,讲句实话,就和 腾讯和阿里他们讲公司治理一样。这不是什么技术层面的事情。

什么是“涌现”,你先搞清楚了,再用这个词。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2824 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 15:27 · PVG 23:27 · LAX 08:27 · JFK 11:27
♥ Do have faith in what you're doing.