

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
卡帕西李飞飞辛顿都投了的Transformer专用芯片,签下10亿美元大单
量子位 | 公众号 QbitAI
一家只做Transformer专用芯片的创业公司成功流片
,连带官宣了一串大进展:
不仅筹集到了8亿美元的资金,还喜滋滋获得了10亿美元的客户大单。
卡帕西、李飞飞、辛顿,都是这家公司的投资人。
它创立于2022年,在别的AI芯片公司强调兼容、通用、生态的时候,Etched从Day 1开始就一心一意扑在Transformer专用芯片上。
中间好长一段时间,Etched没有太多公开动静。
结果六月最后一天突然冒出来,一口气宣布走出隐身状态。
Transformer专用芯片流片了,钱融到了,客户单子也大大的有。
公司官号还在上说,他们
基于现有进展,已经造了第一批机柜
,“早期客户测试表明,我们在推理工作负载方面实现了最先进的吞吐量、延迟和能效”。
古人云一鸣惊人,大概如此。
作为资方爸爸之一的卡帕西老激动了:
Etched突然“诈尸”搞了波大的
在它家官推突然“诈尸”之前,Etched给人留下的些许印象,都来自于“这是一家只给Transformer做AI芯片的初创公司”。
结果冷不丁梆梆一顿宣布,现在做的已经不只是Transformer专用芯片了。
他家从芯片、机柜、软件到制造方法一起设计都在着手,搞的是一整套面向前沿模型推理的集群系统。
官网信息显示,今年早些时候,Etched的A0版芯片已从台积电N4P工艺流片回片。
现在推出首款机柜产品,主要也是为了满足10亿美元大单的需求。
直言不讳表示第一批机柜计划今年夏天出货,那Etched的商业化节奏也不也就摆上桌面了?
至于软件和制造方法层面——
按照官方说法,它的推理系统是为前沿模型准备的,覆盖万亿参数级MoE、长上下文和Agent工作负载。
为了跑这些任务,Etched共同设计了新的芯片、封装、PCB、冷板、互连等组件。
此外,Etched引入了低电压推理(LVI)技术,适用于高吞吐量工作负载。
现在的情况是AI芯片如果不进行热节流,就无法扩展浮点运算能力。
而随着浮点运算能力的提升,AI芯片会消耗更多电力并降低时钟频率。这通常会导致持续的推理吞吐量低于峰值浮点运算能力的一半。
Etched设计了一种全新的架构,使芯片的数学模块能够在不到大多数AI芯片一半的电压下运行。
这使得芯片的浮点运算密度比目前的AI芯片高出数倍。
让万亿参数级稀疏MoE在80%以上峰值FLOPs下运行,同时不出现热降频。
要做到这一点,需要从晶体管到token统筹设计,包括可拆分数学阵列、电路技术、tiling和调度算法、供电网络、VRM架构、高级封装和冷板设计。
与此同时,Etched还推出适用于低延迟工作负载的集群规模内存 (CSM)。
当前采用HBM的AI芯片受限于内存子系统和互连瓶颈,难以达到接近SRAM的解码速度;而纯SRAM架构的芯片虽然延迟更低,却往往受限于浮点运算密度和内存容量,难以兼顾吞吐量。
通常咱都不得不在两者之间做取舍:要么以更慢的速度提供服务,要么压低批量规模运行,从而承受更高成本。
在运行巨型MoE模型时,token需要在不同专家之间路由、数据必须穿过多层内存体系和网络交换网络,才能到达目标专家。
每多一层内存,延迟就会增加一分;因此,
从延迟角度看,最好的内存层级,某种意义上就是“少一层是一层”
为此,Etched团队设计了一种新架构,在整个scale-up域内构建共享的低延迟内存池。
他们采用了专有的超低延迟、高带宽互连技术,大幅提升跨芯片内存访问速度。
基于HBM/SRAM的混合设计,同时解决了容量和mem2mem延迟问题,让高吞吐与强交互性得以兼得。
“CSM不仅改善了延迟表现,也避免了当前纯SRAM 芯片、3D DRAM芯片或光互连方案在成本、可靠性、良率、散热和算力上的种种取舍。”
公司还表示,现在团队已有超过400名工程师,分别来自英伟达、谷歌TPU、博通、SK海力士、台积电等公司。
说到团队,我们来详细讲讲创始三剑客。
这个团队的标签就是非常符合刻板印象里“硅谷范儿”的那种。
毕竟“哈佛辍学生创业团队”是他们身上最醒目的标签doge。
CEO叫Gavin Uberti
(下文简称G哥),是“给Transfomer做专用AI芯片”的最早推动者。
本科时期他入学哈佛,一方面继续学数学与计算机相关课程,另一方面开始接触AI编译器优化与系统层问题。