chatjimmy.ai 可以体验 “Taalas 推出首款产品 HC1 ,搭载 Llama 3.1 8B 模型,性能达每用户 17,000 tokens/秒,较现有技术快近 10 倍,制造成本降低 20 倍,功耗减少 10 倍。该模型虽采用自定义 3-bit 数据格式,存在轻微精度损失,但第二代产品将采用标准 4-bit 浮点格式,进一步优化性能。”
1
renfei 2 天前
试了下,快是快,智商不太够,很多逻辑题答案给出的错误的
|
3
cyp0633 2 天前
试了一下翻译任务,很难说是精度问题还是模型本身能力不行,只能说都不可用
|
4
wew3 2 天前
让我想起了岳云鹏的相声
|
5
maolon 2 天前
我觉得之前的 openai 的 5.3 codex spark 已经很有想象力了, 没想到这个更夸张
|
6
Leeeeex PRO 「别管对不对,就说快不快吧」?
|
7
catazshadow 2 天前 via Android
大暴死的节奏,AI 的死穴是正确性,不是傻快
|
8
rmrf OP @catazshadow 这才开始,后面慢慢优化起来,很有想象力啊。
|
9
duty 2 天前
正确性是靠模型的,这个只是证明了一个方案的可行性,就是把模型直接写入到芯片中,忽略了内存和带宽的限制
|
10
coderluan 2 天前
确实快的有点夸张,有些场合确实有用,感谢楼主,新年祝大家也都这么快🐶
|
11
catazshadow 2 天前 via Android
@rmrf 这条路的尽头是 cerebras 那样的晶圆级芯片
https://www.cerebras.ai/blog/openai-codexspark 这么大的东西能跑每秒 1000token ,比这个小的要么比它傻要么比它慢 |
12
CodFrm 2 天前
|
13
77158158 2 天前
瞎回复的。只管快,不管对。
|
14
CuteGirl 2 天前
除了快 其他都不行 回答要么无法回答 要么就是不知所云 - -!
|
15
B4a1n 2 天前
@catazshadow #11 确实,我用 Cline 插件配合 cerebras 的 GLM 跑一个老项目的新系统兼容构建编译,写好提示后它能以极快的速度疯狂的编写测试用例跟反复自己解决 BUG ,直到满足我的需求为止,硬生生跑了半个小时用极快的测试样例跟不停的自动修改 BUG 给我编译成可运行的版本了,完全是用速度跟大 token 换出来的
|
17
xing7673 2 天前
节点换到 [推广] 请
|
18
Tink PRO |
19
Gilfoyle26 2 天前
|
20
Ccf 2 天前
|
21
Ccf 2 天前
|
22
LUO12826 2 天前
V 站这些人真是程序员么,碰到什么新产品都要先看衰一番,就不能先看看人家产品的目标和理念是什么吗。
|
23
guzzhao 2 天前
|
24
YanSeven 2 天前
这个放出来比较的意义不是很大啊,这个 demo 也确实只能说明快,比其他 8B 模型快。但是 8B 都应用场景以及这个模型给出的答案质量好像无法进一步说明什么,可以坐等一手类似 GTP2——>GPT3 的跨越。
|
25
xiaotianhu 2 天前
@catazshadow #7 能干很多事儿了,要求不高的翻译,初筛审核,简单内容总结,而且这只是 demo 说明路径有戏,想象力大的很
|
26
catazshadow 2 天前 via Android
@xiaotianhu 8B 的模型,真的算了吧。自己用 ollama 玩一玩就知道了
|
27
seven777 2 天前 via iPhone
“ 较现有技术快近 10 倍,制造成本降低 20 倍,功耗减少 10 倍” !!!
|
29
icyalala 2 天前
小模型能力不强,但对于文本分类、意图判断、简单翻译之类的场景完全够用,低延迟大并发很有用
怎么上面这么多人,先不去想想有什么适用场景,一上来就批判一番... |
30
june4 2 天前
以后机器人上只能采用这类技术,用传统 llm 那性能比百岁老头动作还慢
|
31
Dream4U 2 天前
哈哈,嘛玩意
|
32
Muniesa 2 天前 via Android
不准是 llama 3.1 8B 的问题,用这个小模型应该就是验证下思路,后面把几百 B 的模型弄好了,准确性就不是问题了
|
34
realpg PRO 很久以前群里就说有华人团队在干这事儿, 不过不是用小模型验证, 是直接尝试搞中等以上的模型
就是矿机的思路 不一定哪天就震撼发布了 |
35
WuSiYu 2 天前 难绷楼上几乎没一个在讨论技术的。。。
搜了一下文章: https://kaitchup.substack.com/p/taalas-hc1-absurdly-fast-per-user 确实是相当 fancy 的一个工作,直接将权重固化成了物理电路,不是“推理任务 ASIC”而是“特定模型的 ASIC”。效果自然是单请求 decode 速度力大砖飞,完全没有 memory wall ,吊打一切 HBM 甚至是 SRAM/存算的工作,也吊打一切投机推理和 dLLM 。 但代价也很明显:为了塞下一个 3bit 8b 的权重,die size 达到了 815mm² ( TSMC N6 ),要知道 4090 才 600+mm² ( N5 ),塞下更大模型成本很高。另外并发能力和最大上下文长度未知,可能就只有单并发能力和几千 token 量级,毕竟看起来全靠 sram: https://substackcdn.com/image/fetch/$s_!I1yU!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F45cfa22a-ce4b-4704-9aed-ba7a4214c656_612x408.png 评价是科技与狠活,作为学术工作的话非常 fancy ,作为商业用途的话需要找到合适场景,毕竟这么小的模型比较唐是正常的,但这推理速度能干很多之前 LLM 因为实时性没法干的事 |
36
paopjian 2 天前 @WuSiYu 看起来这玩意的原理就是固化权重以后一条线运算, 和以前有个类似的思路<A spatially varying nanophotonic neural network for optical computation in flat camera optics> 光路模拟权重, 比这个还超前, 这个还现实一点, 但是代价就是超大面积 极小权重, 换来的只有超速 token, 对于融资是比较理想的, 毕竟可以给军方和私密计算使用, 但是普及是有难度的, 迭代太慢
|
37
LUO12826 2 天前
@Dream4U #33 人已经说了是 8B 的模型,相比现在的在线大模型肯定是智障一般。但可以想象在手机、低功耗设备、机器人这种场景下作为端侧处理简单任务的小模型很有潜力。
想感叹一下,比如 chatGPT 刚上线时,本坛很多人对 AI 写代码嗤之以鼻; cursor 刚上线时,很多分享贴下有人质疑是推广。作为偏技术的论坛,怎么很多人都不会用发展的眼光看问题呢。 |
38
kkwa56188 2 天前
道理都懂,
但是你这 8B 做出来 还说给 "机器人这种场景下作为端侧处理简单任务", 那我是真的害怕你的机器人 |
39
slowgen 2 天前
这才第一款,刻了个老得不行的 LLama3.1 8B ,要知道去年 Qwen3 30B A3B 2507 系列和 GPT-OSS-20B 系列在对话任务上就很能打了(对话模式下写 Go 的准确性很高)。
如果它能塞下 Qwen3-Coder-Next 这个 80B 的模型,甚至 196B 的 Step-3.5-Flash ,整机定价低于 3 万都算白菜价了(对比苹果官翻的 M2 Ultra 192GB )。这个时候应该考虑的是当 token 成本趋于 0 的时候用来干什么了。 |
40
sing4zy 2 天前
这对于 skill 有一个设计趋势,如何用低精度暴力高速,去更快达到最终更高准确定和更强的推理能力,这其实本身就是一个提高准确度方向,现在有了高速和廉价加持,应该会成为一个有吸引力的方向
|
41
fbcskpebfr 2 天前 via iPhone |
42
catazshadow 1 天前 via Android
才 8B 模型就比 4090 大了,还是那句话,大暴死的节奏🤣
|
43
EasonYan 1 天前
说是成本下降 20 倍,可是从来都没有公布成本是多少啊
|
44
satoru 1 天前
@catazshadow cerebras 确实快,我发现他们家封中国 IP 是靠 Cloudflare 做的,不像其他家有自己的页面
|
45
Esec 1 天前 via Android
有点几十年前显示加速卡刚出来的那个感觉了,看网友说功耗要 200w 还意外的有点神奇,就是现在晶片订单被通用 ai 算力包圆的时代这些小玩意不好铺开呀
|
46
dismantle 1 天前
大模型快应该不是第一性吧, codex 比 claude 慢很多, 还是大把人用
|
47
WuDiHaiTai 1 天前
@LUO12826 #37 程序员就更应该怀疑,毕竟 Talk is cheap, show me the code.
要怪就怪前人把 AI 泡沫整太大了,虚无缥缈的东西,谁家出产品不吹几句求投资,我对 AI 的 Prejudgment 就是唱衰。真像楼里面说的,gpt2==>gpt3 ,有目共睹,谁都看得见摸得着的,怎么唱衰? cursor 拿出成果,大家都老老实实闭嘴就完了,当初唱衰 cursor 的人最后不也得支持吗?我当初唱衰 Deepseek ,后来也充 API 了,因为我看到了成果,而先前对着一排“服务繁忙,稍后再试”我真的看不到前景在哪。 前段时间看了个灰产分享,买一堆老服务器成立公司去银行拉贷款,说自己做 AI 算力出租的,自己有独家技术,前景不可限量,作为银行去实地考察,谁能看出来他是真的还是假的?所以在拿出成果或者可信方案之前,不要对任何一个 AI 项目有好感。 |
48
YsHaNg 1 天前
AIDR
|
49
Leeeeex PRO 基础原理不太懂,是不是和 groq 差不多
|
50
Dkphhh 1 天前
我测试了一下中译英的能力,至少这个翻译水平是 OK 的,没有啥大问题,就翻译这个场景来说,可用性相当高了。
|
51
raycool 1 天前
这种流片成本不是一般的高吧,不可修改,不可训练
|
52
rmrf OP 今天看到 https://www.anuragk.com/blog/posts/Taalas.html 这里讲的:技术原理
1. 固定功能 ASIC 架构 Taalas 的芯片是一种固定功能 ASIC (专用集成电路),类似于 CD-ROM 、游戏卡带或印刷书籍——只能运行一个特定模型,无法重写。 他们将 Llama 3.1 的 32 层网络结构直接蚀刻到硅片上,模型权重成为物理晶体管,而非存储在内存中的数据。 2. 突破"内存墙" 传统 GPU 的瓶颈:GPU 需要从 VRAM/HBM 反复读取每一层的权重矩阵,进行计算后将中间结果存回内存。这种频繁的内存读写造成延迟和能耗(即"内存墙"或冯·诺依曼瓶颈)。 Taalas 的方案:输入向量直接流入第一层物理晶体管,通过他们发明的"魔法乘法器"(单个晶体管实现 4-bit 数据存储和乘法运算),电信号通过物理导线直接流入第二层,依此类推,直到生成最终 token 。无需外部内存来回搬运数据。 3. 芯片制造策略 他们设计了带有大规模通用逻辑门和晶体管网格的基础芯片。 针对特定模型,只需定制最上面的两层光罩即可,无需从头制造芯片。 为 Llama 3.1 8B 开发专用芯片仅用了 2 个月——在 AI 领域虽显漫长,但在定制芯片领域已属极快。 4. 内存使用 不使用外部 DRAM/HBM ,但包含少量片上 SRAM: 存储 KV Cache (对话的上下文窗口) 支持 LoRA 适配器进行微调 |
53
restkhz 19 小时 10 分钟前
楼上很多 v2 貌似不知道什么是 ASIC...
这家不是在做计算芯片,而是简单粗暴的把模型权重全写到一个芯片里。比起来搞什么计算核心,取指令,做计算,访存,流水线,分支预测那一套,这玩意直接按位连线就行。要加 0 芯片上直接连线,要加 1 就取反,加法器都省了。乘偶数直接靠位移就好。又快又省电。 目前权重太多铺不下,但是工艺和布线如果还能优化,塞个大点的模型,4bit 量化,很有前景啊。 如果一个芯片不够大,那就搞多个芯片,之间数据交换做好,应该能快速跑更大更精良的模型。 如果这个搞起来了,可能对 Nvidia 不会是好消息。训练还是 Nvidia,可能跑模型的机房就不需要那么多 GPU 了。以后 AI 竞争可能更多会跑到模型那里。 Token 价格可以进一步被打下去。 楼上骂的都是 Llama 3.1 8B 在 3bit 量化下的表现,和这个技术无关。 |
54
slert 16 小时 4 分钟前
有点像加密货币矿机的发展路线,但那个领域快就是一切,并且算法不变。
但快得那么突出一定还是有应用场景,现在问题就是多久能装下更大、可用性更好,乃至全尺寸的模型,并且成本可控。 |
55
rmrf OP @restkhz 是的,非常赞同,这个技术绝对是 2026 年非常非常有重量的,非常有想象力的做法。
想想一下,那些对速度有非常高要求的垂直场景:高速行驶的汽车、具身机器人的大脑的部分功能(或者小脑) 另外据我了解,中国的公司因为 llm 训练 gpu 技术不行,其实一直都在押宝 ASIC 芯片路线的。 |
56
iugo 12 小时 58 分钟前
今天 AI 还告诉我, 人脑的存算一体, 性能是目前计算机的千万倍.
|