找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 129|回复: 0

AI跑出闪电速度,24个人,炸翻AI圈

[复制链接]
发表于 2026-2-22 03:16 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章

24个人,刚刚用最“反直觉”的笨办法炸翻了AI圈

w1.jpg

过去这一年,如果你关注科技圈,你的耳朵大概已经被几个词磨出了茧子:万卡集群、液冷中心、H100、算力荒

当奥特曼(Sam Altman)抛出7万亿美元的惊天芯片计划,当马斯克为了抢英伟达的显卡着急时,整个科技圈在遵循一种极其暴力的美学——造更庞大的通用集群,烧更多的电,跑更大的模型,企图更大更快更强,谁能一统AI江湖。

但就在昨天,一家远在多伦多、成立不到三年、仅有24名员工的初创公司,悄悄向这股狂热投下了另类刹车。

没有挑战英伟达的算力霸权,也没有去卷大模型参数量。相反,他们做了一件在现代人看来极其“复古”、甚至有些“愚蠢”的事:

他们把一整个AI模型,直接用物理方式“刻”死在了硅片上。

在这个所有人都在追求系统“高复用率”和“绝对灵活”的时代,这家名为 Taalas 的公司,用“绝对的僵化”,换取了 AI 超高运行效率。

这绝不仅仅是一条被忽视的新闻,这可能是过去十年来,半导体和AI领域最重要的一次路线分叉。

1. 被物理学卡住的脖子




要理解 Taalas 的做法有多颠覆,我们得先从历史的维度,看看现在的AI芯片到底瓶颈在哪里。

过去几十年,从CPU到GPU,计算的底层逻辑叫冯·诺依曼架构

简单来说,就是“计算”和“存储”是分家的。

你的数据(比如大模型的权重参数)存在仓库(内存/显存)里,

当你需要计算时,搬运工(内存带宽)把数据搬到车间(计算单元),算完再搬回去。

在过去,这套逻辑运转完美。但随着大模型时代的到来,参数量动辄几百上千亿,这套架构撞上了一堵叹息之墙——内存墙(Memory Wall)

现实是残酷的:在目前主流的GPU上跑AI推理,能量和时间其实并没有花在“思考(计算)”上,而是花在了“搬运数据”上。

就像一个快递员,每天为了送一份一毛钱的文件,要开着十吨重的卡车往返几百公里。

这就是为什么现在的智算中心动辄需要几十千瓦的机柜,需要恐怖的液冷系统。

Taalas 的创始人 Ljubisa Bajic 看着这种荒谬的现状,提出了一个极其暴力的解法:

既然你这个模型每天都在算同样的东西,为什么还要每天搬数据?

直接把“仓库”和“车间”融为一体,把大模型的权重,直接变成晶体管的物理连线不就行了?

2. 回归“红白机时代”:把AI做成游戏卡带




于是,HC1 芯片诞生了。

w2.jpg

这块芯片里没有任何显存(没有HBM),没有复杂的缓存层级。

大模型的每一个参数,都化作了芯片上的一根根物理电路。

当你输入一句话,电流就像极速穿梭,顺着预先设计好的物理路径流淌,流到出口,下一个词瞬间就预测出来了。

如果用现实生活打比方:传统的GPU就像是一支交响乐团,你给他们什么乐谱(模型),他们都能现场给你演奏(推理),非常灵活,但你需要养活几百个音乐家,而且准备时间很长。

而 Taalas 的芯片,就是一张黑胶唱片。它只能播放那一首歌,永远无法更改,但只要唱针一落下,音乐瞬间响起,而且成本极低。

这种“物理硬连线”带来的震撼是降维打击级别的:

    光速级别的速度:

    运行 Llama 3.1 8B 模型,速度达到了恐怖的 17000 tokens/秒

    作为对比,目前业界最顶级的GPU,速度大概在 2000 左右。这是近乎十倍的碾压。

    测试者表示,按下回车的瞬间,AI大段的答案已经铺满屏幕,感受不到任何“生成”的过程。



    不可思议的能效:

    不需要造价昂贵的液冷,只需要最普通的风扇。十张卡加起来的功耗只有区区 2.5千瓦。它的能效是传统GPU的十倍以上。



    白菜价的成本:

    它的制造成本只有传统方案的十分之一到二十分之一。



3. 这是一场豪赌:电子垃圾 or 商业奇迹




看到这里,你也许会发现这种做法致命的盲点。

这块 HC1 芯片出厂的那一刻,它的一生就已经被“锁死”。它这辈子只能运行 Llama 3.1 8B 这个模型。模型升级进化与这个芯片就无关了。

不能微调、不能升级、不能换模型。

如果在它出厂的第二天,Meta 发布了 Llama 4 新模型,或者开源社区出了一个更好的模型,这块凝聚了顶级技术的芯片,瞬间就会沦为毫无用处的电子垃圾。

因为它过时了!没人愿意再用老旧模型。

在AI技术一天一变样的今天,谁会蠢到把自己锁死在一个固定的模型上?

面对这个质疑,Taalas 团队并非没有准备。

他们的破局点在于代工模式的革命。 他们把定制流片的周期,从传统的“按年计算”压缩到了短短的两个月

通过和台积电的深度合作,只需要修改两层金属掩膜,就能快速为新模型“印”出新芯片。

更有趣的是,Taalas 赌对了一种正在蔓延的用户心理:技术疲劳与版本依恋。

就像现在很多人依然拿着 iPhone 13 觉得足够好用一样,对于大量的垂直行业(比如客服机器人、汽车语音助手、数据清洗流水线),他们根本不需要每天追着 GPT-5 或者 Claude 3.5 的新模型跑。

他们只需要一个足够聪明、极其便宜、响应极快的“特定版本”。

只要在特定的业务场景里,这块芯片能用上几个月,省下的电费和算力租金,就足以覆盖它低廉的制造成本了。

4. 叛逆的宗师:谁在支持这场疯狂的实验?




如果我们去挖一挖这家24人小公司的背景,你会发现这根本不是什么草根创业,而是半导体行业“老炮儿”的一场j经典叛逃。

CEO Ljubisa Bajic 曾是 AI 芯片独角兽 Tenstorrent 的创始人,在大名鼎鼎的 AMD 和英伟达都有过极其辉煌的架构师履历。

当芯片界的大神 Jim Keller 加入 Tenstorrent 并坚持走“通用可编程”路线时,Ljubisa 选择离开,因为他坚信:AI的尽头,是绝对的专用化。

在 Taalas 刚完成的总计 2.19 亿美元的融资名单里,赫然写着 Pierre Lamond 的名字。

这位半导体仙童公司(Fairchild)的元老、红杉资本的前合伙人、硅谷活化石级别的投资人,用真金白银为这套“反直觉”的逻辑投了赞成票。

写在最后:三岔路口




Taalas 的出现,像是在狂飙突进的 AI 时代按下了暂停键,问了所有人一个极其锐利的问题:

我们真的需要让每一台设备,都拥有思考宇宙起源的通用能力吗?

也许,未来的 AI 硬件世界不会是英伟达一家独大的帝国,而是一个折叠的宇宙。

云端矗立着英伟达的万卡集群,负责探索智慧的边界、训练下一代神级大模型。

而我们的手机、汽车、扫地机器人里,则插满了一张张像 Taalas 这样“廉价、死板却运行极度高效”的 AI 芯片。

历史总是惊人的相似。从通用到专用,从软件到硬件,计算的钟摆再次回荡。

Taalas 究竟是颠覆英伟达的急先锋,还是技术史册上一个昂贵的注脚?市场很快就会给出答案。


你会希望未来的智能设备里插着这种“不可升级,但快如闪电”的专用AI芯片,还是更倾向于随时可以下载新模型的通用设备呢?
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2026-2-28 16:17 , Processed in 0.101870 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表