V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
rmrf
V2EX  ›  程序员

这个推理速度也太快了吧! chatjimmy.ai 比查 db 都快啊!

  •  
  •   rmrf · 2 天前 · 5789 次点击

    chatjimmy.ai 可以体验 “Taalas 推出首款产品 HC1 ,搭载 Llama 3.1 8B 模型,性能达每用户 17,000 tokens/秒,较现有技术快近 10 倍,制造成本降低 20 倍,功耗减少 10 倍。该模型虽采用自定义 3-bit 数据格式,存在轻微精度损失,但第二代产品将采用标准 4-bit 浮点格式,进一步优化性能。”

    57 条回复    2026-02-23 19:47:02 +08:00
    renfei
        1
    renfei  
       2 天前
    试了下,快是快,智商不太够,很多逻辑题答案给出的错误的
    rmrf
        2
    rmrf  
    OP
       2 天前
    @renfei 是的,精度不行,但这推理速度,让很多事情很有想象力了。尝试了一下大段翻译,超级快,而且基本正确。
    cyp0633
        3
    cyp0633  
       2 天前
    试了一下翻译任务,很难说是精度问题还是模型本身能力不行,只能说都不可用
    wew3
        4
    wew3  
       2 天前
    让我想起了岳云鹏的相声
    maolon
        5
    maolon  
       2 天前
    我觉得之前的 openai 的 5.3 codex spark 已经很有想象力了, 没想到这个更夸张
    Leeeeex
        6
    Leeeeex  
    PRO
       2 天前 via Android   ❤️ 14
    「别管对不对,就说快不快吧」?
    catazshadow
        7
    catazshadow  
       2 天前 via Android
    大暴死的节奏,AI 的死穴是正确性,不是傻快
    rmrf
        8
    rmrf  
    OP
       2 天前
    @catazshadow 这才开始,后面慢慢优化起来,很有想象力啊。
    duty
        9
    duty  
       2 天前
    正确性是靠模型的,这个只是证明了一个方案的可行性,就是把模型直接写入到芯片中,忽略了内存和带宽的限制
    coderluan
        10
    coderluan  
       2 天前
    确实快的有点夸张,有些场合确实有用,感谢楼主,新年祝大家也都这么快🐶
    catazshadow
        11
    catazshadow  
       2 天前 via Android
    @rmrf 这条路的尽头是 cerebras 那样的晶圆级芯片

    https://www.cerebras.ai/blog/openai-codexspark

    这么大的东西能跑每秒 1000token ,比这个小的要么比它傻要么比它慢
    CodFrm
        12
    CodFrm  
       2 天前
    「别管对不对,就说快不快吧」


    77158158
        13
    77158158  
       2 天前
    瞎回复的。只管快,不管对。
    CuteGirl
        14
    CuteGirl  
       2 天前
    除了快 其他都不行 回答要么无法回答 要么就是不知所云 - -!
    B4a1n
        15
    B4a1n  
       2 天前
    @catazshadow #11 确实,我用 Cline 插件配合 cerebras 的 GLM 跑一个老项目的新系统兼容构建编译,写好提示后它能以极快的速度疯狂的编写测试用例跟反复自己解决 BUG ,直到满足我的需求为止,硬生生跑了半个小时用极快的测试样例跟不停的自动修改 BUG 给我编译成可运行的版本了,完全是用速度跟大 token 换出来的
    i386
        16
    i386  
       2 天前 via iPhone
    @CodFrm 哈哈哈
    xing7673
        17
    xing7673  
       2 天前
    节点换到 [推广] 请
    Tink
        18
    Tink  
    PRO
       2 天前
    不行,精度太差了

    Gilfoyle26
        19
    Gilfoyle26  
       2 天前
    1351253123*31388993624+12312424/35123512314234=354362455345523454

    先别管对不对,你就说快不快吧!
    Ccf
        20
    Ccf  
       2 天前

    魔咒了!
    Ccf
        21
    Ccf  
       2 天前


    魔咒了!
    LUO12826
        22
    LUO12826  
       2 天前
    V 站这些人真是程序员么,碰到什么新产品都要先看衰一番,就不能先看看人家产品的目标和理念是什么吗。
    guzzhao
        23
    guzzhao  
       2 天前
    YanSeven
        24
    YanSeven  
       2 天前
    这个放出来比较的意义不是很大啊,这个 demo 也确实只能说明快,比其他 8B 模型快。但是 8B 都应用场景以及这个模型给出的答案质量好像无法进一步说明什么,可以坐等一手类似 GTP2——>GPT3 的跨越。
    xiaotianhu
        25
    xiaotianhu  
       2 天前
    @catazshadow #7 能干很多事儿了,要求不高的翻译,初筛审核,简单内容总结,而且这只是 demo 说明路径有戏,想象力大的很
    catazshadow
        26
    catazshadow  
       2 天前 via Android
    @xiaotianhu 8B 的模型,真的算了吧。自己用 ollama 玩一玩就知道了
    seven777
        27
    seven777  
       2 天前 via iPhone
    “ 较现有技术快近 10 倍,制造成本降低 20 倍,功耗减少 10 倍” !!!
    seven777
        28
    seven777  
       2 天前 via iPhone
    @LUO12826 V2er 都不太习惯盲从。
    icyalala
        29
    icyalala  
       2 天前
    小模型能力不强,但对于文本分类、意图判断、简单翻译之类的场景完全够用,低延迟大并发很有用
    怎么上面这么多人,先不去想想有什么适用场景,一上来就批判一番...
    june4
        30
    june4  
       2 天前
    以后机器人上只能采用这类技术,用传统 llm 那性能比百岁老头动作还慢
    Dream4U
        31
    Dream4U  
       2 天前
    哈哈,嘛玩意
    Muniesa
        32
    Muniesa  
       2 天前 via Android
    不准是 llama 3.1 8B 的问题,用这个小模型应该就是验证下思路,后面把几百 B 的模型弄好了,准确性就不是问题了
    Dream4U
        33
    Dream4U  
       2 天前
    @LUO12826 至少能用吧,你啥用都没有,就吹上了,意义是啥?
    realpg
        34
    realpg  
    PRO
       2 天前
    很久以前群里就说有华人团队在干这事儿, 不过不是用小模型验证, 是直接尝试搞中等以上的模型
    就是矿机的思路 不一定哪天就震撼发布了
    WuSiYu
        35
    WuSiYu  
       2 天前   ❤️ 9
    难绷楼上几乎没一个在讨论技术的。。。
    搜了一下文章: https://kaitchup.substack.com/p/taalas-hc1-absurdly-fast-per-user

    确实是相当 fancy 的一个工作,直接将权重固化成了物理电路,不是“推理任务 ASIC”而是“特定模型的 ASIC”。效果自然是单请求 decode 速度力大砖飞,完全没有 memory wall ,吊打一切 HBM 甚至是 SRAM/存算的工作,也吊打一切投机推理和 dLLM 。

    但代价也很明显:为了塞下一个 3bit 8b 的权重,die size 达到了 815mm² ( TSMC N6 ),要知道 4090 才 600+mm² ( N5 ),塞下更大模型成本很高。另外并发能力和最大上下文长度未知,可能就只有单并发能力和几千 token 量级,毕竟看起来全靠 sram:

    https://substackcdn.com/image/fetch/$s_!I1yU!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F45cfa22a-ce4b-4704-9aed-ba7a4214c656_612x408.png

    评价是科技与狠活,作为学术工作的话非常 fancy ,作为商业用途的话需要找到合适场景,毕竟这么小的模型比较唐是正常的,但这推理速度能干很多之前 LLM 因为实时性没法干的事
    paopjian
        36
    paopjian  
       2 天前   ❤️ 1
    @WuSiYu 看起来这玩意的原理就是固化权重以后一条线运算, 和以前有个类似的思路<A spatially varying nanophotonic neural network for optical computation in flat camera optics> 光路模拟权重, 比这个还超前, 这个还现实一点, 但是代价就是超大面积 极小权重, 换来的只有超速 token, 对于融资是比较理想的, 毕竟可以给军方和私密计算使用, 但是普及是有难度的, 迭代太慢
    LUO12826
        37
    LUO12826  
       2 天前
    @Dream4U #33 人已经说了是 8B 的模型,相比现在的在线大模型肯定是智障一般。但可以想象在手机、低功耗设备、机器人这种场景下作为端侧处理简单任务的小模型很有潜力。
    想感叹一下,比如 chatGPT 刚上线时,本坛很多人对 AI 写代码嗤之以鼻; cursor 刚上线时,很多分享贴下有人质疑是推广。作为偏技术的论坛,怎么很多人都不会用发展的眼光看问题呢。
    kkwa56188
        38
    kkwa56188  
       2 天前
    道理都懂,
    但是你这 8B 做出来 还说给 "机器人这种场景下作为端侧处理简单任务", 那我是真的害怕你的机器人
    slowgen
        39
    slowgen  
       2 天前
    这才第一款,刻了个老得不行的 LLama3.1 8B ,要知道去年 Qwen3 30B A3B 2507 系列和 GPT-OSS-20B 系列在对话任务上就很能打了(对话模式下写 Go 的准确性很高)。

    如果它能塞下 Qwen3-Coder-Next 这个 80B 的模型,甚至 196B 的 Step-3.5-Flash ,整机定价低于 3 万都算白菜价了(对比苹果官翻的 M2 Ultra 192GB )。这个时候应该考虑的是当 token 成本趋于 0 的时候用来干什么了。
    sing4zy
        40
    sing4zy  
       2 天前
    这对于 skill 有一个设计趋势,如何用低精度暴力高速,去更快达到最终更高准确定和更强的推理能力,这其实本身就是一个提高准确度方向,现在有了高速和廉价加持,应该会成为一个有吸引力的方向
    fbcskpebfr
        41
    fbcskpebfr  
       2 天前 via iPhone   ❤️ 1
    也不是啥创新,发布即落后,外国去年就搞出来硬件 120B GPT OSS 了,近 25 万 token/s

    https://arxiv.org/abs/2508.16151
    catazshadow
        42
    catazshadow  
       1 天前 via Android
    才 8B 模型就比 4090 大了,还是那句话,大暴死的节奏🤣
    EasonYan
        43
    EasonYan  
       1 天前
    说是成本下降 20 倍,可是从来都没有公布成本是多少啊
    satoru
        44
    satoru  
       1 天前
    @catazshadow cerebras 确实快,我发现他们家封中国 IP 是靠 Cloudflare 做的,不像其他家有自己的页面
    Esec
        45
    Esec  
       1 天前 via Android
    有点几十年前显示加速卡刚出来的那个感觉了,看网友说功耗要 200w 还意外的有点神奇,就是现在晶片订单被通用 ai 算力包圆的时代这些小玩意不好铺开呀
    dismantle
        46
    dismantle  
       1 天前
    大模型快应该不是第一性吧, codex 比 claude 慢很多, 还是大把人用
    WuDiHaiTai
        47
    WuDiHaiTai  
       1 天前
    @LUO12826 #37 程序员就更应该怀疑,毕竟 Talk is cheap, show me the code.
    要怪就怪前人把 AI 泡沫整太大了,虚无缥缈的东西,谁家出产品不吹几句求投资,我对 AI 的 Prejudgment 就是唱衰。真像楼里面说的,gpt2==>gpt3 ,有目共睹,谁都看得见摸得着的,怎么唱衰? cursor 拿出成果,大家都老老实实闭嘴就完了,当初唱衰 cursor 的人最后不也得支持吗?我当初唱衰 Deepseek ,后来也充 API 了,因为我看到了成果,而先前对着一排“服务繁忙,稍后再试”我真的看不到前景在哪。

    前段时间看了个灰产分享,买一堆老服务器成立公司去银行拉贷款,说自己做 AI 算力出租的,自己有独家技术,前景不可限量,作为银行去实地考察,谁能看出来他是真的还是假的?所以在拿出成果或者可信方案之前,不要对任何一个 AI 项目有好感。
    YsHaNg
        48
    YsHaNg  
       1 天前
    AIDR
    Leeeeex
        49
    Leeeeex  
    PRO
       1 天前 via iPhone
    基础原理不太懂,是不是和 groq 差不多
    Dkphhh
        50
    Dkphhh  
       1 天前
    我测试了一下中译英的能力,至少这个翻译水平是 OK 的,没有啥大问题,就翻译这个场景来说,可用性相当高了。
    raycool
        51
    raycool  
       1 天前
    这种流片成本不是一般的高吧,不可修改,不可训练
    rmrf
        52
    rmrf  
    OP
       1 天前
    今天看到 https://www.anuragk.com/blog/posts/Taalas.html 这里讲的:技术原理

    1. 固定功能 ASIC 架构
    Taalas 的芯片是一种固定功能 ASIC (专用集成电路),类似于 CD-ROM 、游戏卡带或印刷书籍——只能运行一个特定模型,无法重写。
    他们将 Llama 3.1 的 32 层网络结构直接蚀刻到硅片上,模型权重成为物理晶体管,而非存储在内存中的数据。

    2. 突破"内存墙"
    传统 GPU 的瓶颈:GPU 需要从 VRAM/HBM 反复读取每一层的权重矩阵,进行计算后将中间结果存回内存。这种频繁的内存读写造成延迟和能耗(即"内存墙"或冯·诺依曼瓶颈)。
    Taalas 的方案:输入向量直接流入第一层物理晶体管,通过他们发明的"魔法乘法器"(单个晶体管实现 4-bit 数据存储和乘法运算),电信号通过物理导线直接流入第二层,依此类推,直到生成最终 token 。无需外部内存来回搬运数据。

    3. 芯片制造策略
    他们设计了带有大规模通用逻辑门和晶体管网格的基础芯片。
    针对特定模型,只需定制最上面的两层光罩即可,无需从头制造芯片。
    为 Llama 3.1 8B 开发专用芯片仅用了 2 个月——在 AI 领域虽显漫长,但在定制芯片领域已属极快。

    4. 内存使用
    不使用外部 DRAM/HBM ,但包含少量片上 SRAM:
    存储 KV Cache (对话的上下文窗口)
    支持 LoRA 适配器进行微调
    restkhz
        53
    restkhz  
       19 小时 10 分钟前
    楼上很多 v2 貌似不知道什么是 ASIC...
    这家不是在做计算芯片,而是简单粗暴的把模型权重全写到一个芯片里。比起来搞什么计算核心,取指令,做计算,访存,流水线,分支预测那一套,这玩意直接按位连线就行。要加 0 芯片上直接连线,要加 1 就取反,加法器都省了。乘偶数直接靠位移就好。又快又省电。

    目前权重太多铺不下,但是工艺和布线如果还能优化,塞个大点的模型,4bit 量化,很有前景啊。
    如果一个芯片不够大,那就搞多个芯片,之间数据交换做好,应该能快速跑更大更精良的模型。

    如果这个搞起来了,可能对 Nvidia 不会是好消息。训练还是 Nvidia,可能跑模型的机房就不需要那么多 GPU 了。以后 AI 竞争可能更多会跑到模型那里。
    Token 价格可以进一步被打下去。

    楼上骂的都是 Llama 3.1 8B 在 3bit 量化下的表现,和这个技术无关。
    slert
        54
    slert  
       16 小时 4 分钟前
    有点像加密货币矿机的发展路线,但那个领域快就是一切,并且算法不变。
    但快得那么突出一定还是有应用场景,现在问题就是多久能装下更大、可用性更好,乃至全尺寸的模型,并且成本可控。
    rmrf
        55
    rmrf  
    OP
       14 小时 1 分钟前
    @restkhz 是的,非常赞同,这个技术绝对是 2026 年非常非常有重量的,非常有想象力的做法。

    想想一下,那些对速度有非常高要求的垂直场景:高速行驶的汽车、具身机器人的大脑的部分功能(或者小脑)

    另外据我了解,中国的公司因为 llm 训练 gpu 技术不行,其实一直都在押宝 ASIC 芯片路线的。
    iugo
        56
    iugo  
       12 小时 58 分钟前
    今天 AI 还告诉我, 人脑的存算一体, 性能是目前计算机的千万倍.
    mewking
        57
    mewking  
       11 小时 5 分钟前
    @slowgen 有木有测过 MiniMax 2.5 ? Qwen3-Coder-Next ,Step-3.5-Flash ,这三个 code 和 agents 能力比较起来如何?

    龙虾用来本地不知道怎样

    去年有段时间感觉国内开放权重模型都快追上御三家了,最近又被甩远了
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   702 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 55ms · UTC 22:52 · PVG 06:52 · LAX 14:52 · JFK 17:52
    ♥ Do have faith in what you're doing.