这个推理速度也太快了吧！ chatjimmy.ai 比查 db 都快啊！

性能

模型

产品

57 条回复 • 2026-02-23 19:47:02 +08:00

1

renfei

2 天前

试了下，快是快，智商不太够，很多逻辑题答案给出的错误的

2

rmrf

OP

2 天前

@renfei 是的，精度不行，但这推理速度，让很多事情很有想象力了。尝试了一下大段翻译，超级快，而且基本正确。

3

cyp0633

2 天前

试了一下翻译任务，很难说是精度问题还是模型本身能力不行，只能说都不可用

4

wew3

2 天前

让我想起了岳云鹏的相声

5

maolon

2 天前

我觉得之前的 openai 的 5.3 codex spark 已经很有想象力了，没想到这个更夸张

6

Leeeeex

PRO

2 天前 via Android

14

「别管对不对，就说快不快吧」？

7

catazshadow

2 天前 via Android

大暴死的节奏，AI 的死穴是正确性，不是傻快

8

rmrf

OP

2 天前

@catazshadow 这才开始，后面慢慢优化起来，很有想象力啊。

9

duty

2 天前

正确性是靠模型的，这个只是证明了一个方案的可行性，就是把模型直接写入到芯片中，忽略了内存和带宽的限制

10

coderluan

2 天前

确实快的有点夸张，有些场合确实有用，感谢楼主，新年祝大家也都这么快🐶

11

catazshadow

2 天前 via Android

@rmrf 这条路的尽头是 cerebras 那样的晶圆级芯片

https://www.cerebras.ai/blog/openai-codexspark

这么大的东西能跑每秒 1000token ，比这个小的要么比它傻要么比它慢

12

CodFrm

2 天前

「别管对不对，就说快不快吧」

13

77158158

2 天前

瞎回复的。只管快，不管对。

14

CuteGirl

2 天前

除了快其他都不行回答要么无法回答要么就是不知所云 - -！

15

B4a1n

2 天前

@catazshadow #11 确实，我用 Cline 插件配合 cerebras 的 GLM 跑一个老项目的新系统兼容构建编译，写好提示后它能以极快的速度疯狂的编写测试用例跟反复自己解决 BUG ，直到满足我的需求为止，硬生生跑了半个小时用极快的测试样例跟不停的自动修改 BUG 给我编译成可运行的版本了，完全是用速度跟大 token 换出来的

16

i386

2 天前 via iPhone

@CodFrm 哈哈哈

17

xing7673

2 天前

节点换到 [推广] 请

18

Tink

PRO

2 天前

不行，精度太差了

19

Gilfoyle26

2 天前

1351253123*31388993624+12312424/35123512314234=354362455345523454

先别管对不对，你就说快不快吧！

20

Ccf

2 天前

魔咒了！

21

Ccf

2 天前

魔咒了！

22

LUO12826

2 天前

V 站这些人真是程序员么，碰到什么新产品都要先看衰一番，就不能先看看人家产品的目标和理念是什么吗。

23

guzzhao

2 天前

24

YanSeven

2 天前

这个放出来比较的意义不是很大啊，这个 demo 也确实只能说明快，比其他 8B 模型快。但是 8B 都应用场景以及这个模型给出的答案质量好像无法进一步说明什么，可以坐等一手类似 GTP2——>GPT3 的跨越。

25

xiaotianhu

2 天前

@catazshadow #7 能干很多事儿了，要求不高的翻译，初筛审核，简单内容总结，而且这只是 demo 说明路径有戏，想象力大的很

26

catazshadow

2 天前 via Android

@xiaotianhu 8B 的模型，真的算了吧。自己用 ollama 玩一玩就知道了

27

seven777

2 天前 via iPhone

“ 较现有技术快近 10 倍，制造成本降低 20 倍，功耗减少 10 倍” ！！！

28

seven777

2 天前 via iPhone

@LUO12826 V2er 都不太习惯盲从。

29

icyalala

2 天前

小模型能力不强，但对于文本分类、意图判断、简单翻译之类的场景完全够用，低延迟大并发很有用
怎么上面这么多人，先不去想想有什么适用场景，一上来就批判一番...

30

june4

2 天前

以后机器人上只能采用这类技术，用传统 llm 那性能比百岁老头动作还慢

31

Dream4U

2 天前

哈哈，嘛玩意

32

Muniesa

2 天前 via Android

不准是 llama 3.1 8B 的问题，用这个小模型应该就是验证下思路，后面把几百 B 的模型弄好了，准确性就不是问题了

33

Dream4U

2 天前

@LUO12826 至少能用吧，你啥用都没有，就吹上了，意义是啥？

34

realpg

PRO

2 天前

很久以前群里就说有华人团队在干这事儿, 不过不是用小模型验证, 是直接尝试搞中等以上的模型
就是矿机的思路不一定哪天就震撼发布了

35

WuSiYu

2 天前

9

难绷楼上几乎没一个在讨论技术的。。。
搜了一下文章： https://kaitchup.substack.com/p/taalas-hc1-absurdly-fast-per-user

确实是相当 fancy 的一个工作，直接将权重固化成了物理电路，不是“推理任务 ASIC”而是“特定模型的 ASIC”。效果自然是单请求 decode 速度力大砖飞，完全没有 memory wall ，吊打一切 HBM 甚至是 SRAM/存算的工作，也吊打一切投机推理和 dLLM 。

但代价也很明显：为了塞下一个 3bit 8b 的权重，die size 达到了 815mm² （ TSMC N6 ），要知道 4090 才 600+mm² （ N5 ），塞下更大模型成本很高。另外并发能力和最大上下文长度未知，可能就只有单并发能力和几千 token 量级，毕竟看起来全靠 sram：

https://substackcdn.com/image/fetch/$s_!I1yU!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F45cfa22a-ce4b-4704-9aed-ba7a4214c656_612x408.png

评价是科技与狠活，作为学术工作的话非常 fancy ，作为商业用途的话需要找到合适场景，毕竟这么小的模型比较唐是正常的，但这推理速度能干很多之前 LLM 因为实时性没法干的事

36

paopjian

2 天前

1

@WuSiYu 看起来这玩意的原理就是固化权重以后一条线运算, 和以前有个类似的思路<A spatially varying nanophotonic neural network for optical computation in flat camera optics> 光路模拟权重, 比这个还超前, 这个还现实一点, 但是代价就是超大面积极小权重, 换来的只有超速 token, 对于融资是比较理想的, 毕竟可以给军方和私密计算使用, 但是普及是有难度的, 迭代太慢

37

LUO12826

2 天前

@Dream4U #33 人已经说了是 8B 的模型，相比现在的在线大模型肯定是智障一般。但可以想象在手机、低功耗设备、机器人这种场景下作为端侧处理简单任务的小模型很有潜力。
想感叹一下，比如 chatGPT 刚上线时，本坛很多人对 AI 写代码嗤之以鼻； cursor 刚上线时，很多分享贴下有人质疑是推广。作为偏技术的论坛，怎么很多人都不会用发展的眼光看问题呢。

38

kkwa56188

2 天前

道理都懂,
但是你这 8B 做出来还说给 "机器人这种场景下作为端侧处理简单任务", 那我是真的害怕你的机器人

39

slowgen

2 天前

这才第一款，刻了个老得不行的 LLama3.1 8B ，要知道去年 Qwen3 30B A3B 2507 系列和 GPT-OSS-20B 系列在对话任务上就很能打了（对话模式下写 Go 的准确性很高）。

如果它能塞下 Qwen3-Coder-Next 这个 80B 的模型，甚至 196B 的 Step-3.5-Flash ，整机定价低于 3 万都算白菜价了（对比苹果官翻的 M2 Ultra 192GB ）。这个时候应该考虑的是当 token 成本趋于 0 的时候用来干什么了。

40

sing4zy

2 天前

这对于 skill 有一个设计趋势，如何用低精度暴力高速，去更快达到最终更高准确定和更强的推理能力，这其实本身就是一个提高准确度方向，现在有了高速和廉价加持，应该会成为一个有吸引力的方向

41

fbcskpebfr

2 天前 via iPhone

1

也不是啥创新，发布即落后，外国去年就搞出来硬件 120B GPT OSS 了，近 25 万 token/s

https://arxiv.org/abs/2508.16151

42

catazshadow

1 天前 via Android

才 8B 模型就比 4090 大了，还是那句话，大暴死的节奏🤣

43

EasonYan

1 天前

说是成本下降 20 倍，可是从来都没有公布成本是多少啊

44

satoru

1 天前

@catazshadow cerebras 确实快，我发现他们家封中国 IP 是靠 Cloudflare 做的，不像其他家有自己的页面

45

Esec

1 天前 via Android

有点几十年前显示加速卡刚出来的那个感觉了，看网友说功耗要 200w 还意外的有点神奇，就是现在晶片订单被通用 ai 算力包圆的时代这些小玩意不好铺开呀

46

dismantle

1 天前

大模型快应该不是第一性吧, codex 比 claude 慢很多, 还是大把人用

47

WuDiHaiTai

1 天前

@LUO12826 #37 程序员就更应该怀疑，毕竟 Talk is cheap, show me the code.
要怪就怪前人把 AI 泡沫整太大了，虚无缥缈的东西，谁家出产品不吹几句求投资，我对 AI 的 Prejudgment 就是唱衰。真像楼里面说的，gpt2==>gpt3 ，有目共睹，谁都看得见摸得着的，怎么唱衰？ cursor 拿出成果，大家都老老实实闭嘴就完了，当初唱衰 cursor 的人最后不也得支持吗？我当初唱衰 Deepseek ，后来也充 API 了，因为我看到了成果，而先前对着一排“服务繁忙，稍后再试”我真的看不到前景在哪。

前段时间看了个灰产分享，买一堆老服务器成立公司去银行拉贷款，说自己做 AI 算力出租的，自己有独家技术，前景不可限量，作为银行去实地考察，谁能看出来他是真的还是假的？所以在拿出成果或者可信方案之前，不要对任何一个 AI 项目有好感。

48

YsHaNg

1 天前

AIDR

49

Leeeeex

PRO

1 天前 via iPhone

基础原理不太懂，是不是和 groq 差不多

50

Dkphhh

1 天前

我测试了一下中译英的能力，至少这个翻译水平是 OK 的，没有啥大问题，就翻译这个场景来说，可用性相当高了。

51

raycool

1 天前

这种流片成本不是一般的高吧，不可修改，不可训练

52

rmrf

OP

1 天前

今天看到 https://www.anuragk.com/blog/posts/Taalas.html 这里讲的：技术原理

1. 固定功能 ASIC 架构
Taalas 的芯片是一种固定功能 ASIC （专用集成电路），类似于 CD-ROM 、游戏卡带或印刷书籍——只能运行一个特定模型，无法重写。
他们将 Llama 3.1 的 32 层网络结构直接蚀刻到硅片上，模型权重成为物理晶体管，而非存储在内存中的数据。

2. 突破"内存墙"
传统 GPU 的瓶颈：GPU 需要从 VRAM/HBM 反复读取每一层的权重矩阵，进行计算后将中间结果存回内存。这种频繁的内存读写造成延迟和能耗（即"内存墙"或冯·诺依曼瓶颈）。
Taalas 的方案：输入向量直接流入第一层物理晶体管，通过他们发明的"魔法乘法器"（单个晶体管实现 4-bit 数据存储和乘法运算），电信号通过物理导线直接流入第二层，依此类推，直到生成最终 token 。无需外部内存来回搬运数据。

3. 芯片制造策略
他们设计了带有大规模通用逻辑门和晶体管网格的基础芯片。
针对特定模型，只需定制最上面的两层光罩即可，无需从头制造芯片。
为 Llama 3.1 8B 开发专用芯片仅用了 2 个月——在 AI 领域虽显漫长，但在定制芯片领域已属极快。

4. 内存使用
不使用外部 DRAM/HBM ，但包含少量片上 SRAM：
存储 KV Cache （对话的上下文窗口）
支持 LoRA 适配器进行微调

53

restkhz

19 小时 10 分钟前

楼上很多 v2 貌似不知道什么是 ASIC...
这家不是在做计算芯片，而是简单粗暴的把模型权重全写到一个芯片里。比起来搞什么计算核心，取指令，做计算，访存，流水线，分支预测那一套，这玩意直接按位连线就行。要加 0 芯片上直接连线，要加 1 就取反，加法器都省了。乘偶数直接靠位移就好。又快又省电。

目前权重太多铺不下，但是工艺和布线如果还能优化，塞个大点的模型，4bit 量化，很有前景啊。
如果一个芯片不够大，那就搞多个芯片，之间数据交换做好，应该能快速跑更大更精良的模型。

如果这个搞起来了，可能对 Nvidia 不会是好消息。训练还是 Nvidia,可能跑模型的机房就不需要那么多 GPU 了。以后 AI 竞争可能更多会跑到模型那里。
Token 价格可以进一步被打下去。

楼上骂的都是 Llama 3.1 8B 在 3bit 量化下的表现，和这个技术无关。

54

slert

16 小时 4 分钟前

有点像加密货币矿机的发展路线，但那个领域快就是一切，并且算法不变。
但快得那么突出一定还是有应用场景，现在问题就是多久能装下更大、可用性更好，乃至全尺寸的模型，并且成本可控。

55

rmrf

OP

14 小时 1 分钟前

@restkhz 是的，非常赞同，这个技术绝对是 2026 年非常非常有重量的，非常有想象力的做法。

想想一下，那些对速度有非常高要求的垂直场景：高速行驶的汽车、具身机器人的大脑的部分功能（或者小脑）

另外据我了解，中国的公司因为 llm 训练 gpu 技术不行，其实一直都在押宝 ASIC 芯片路线的。

56

iugo

12 小时 58 分钟前

今天 AI 还告诉我, 人脑的存算一体, 性能是目前计算机的千万倍.

57

mewking

11 小时 5 分钟前

@slowgen 有木有测过 MiniMax 2.5 ？ Qwen3-Coder-Next ，Step-3.5-Flash ，这三个 code 和 agents 能力比较起来如何？

龙虾用来本地不知道怎样

去年有段时间感觉国内开放权重模型都快追上御三家了，最近又被甩远了