这几天,英伟达的市值刚刚超过谷歌,然后又被谷歌反超。
就在英伟达即将发布季报之际(2月21日),一家名叫Groq的初创芯片及模型企业,突然卷起了一股波澜,被人惊呼要颠覆英伟达。怎么回事?
让我们先打开这家公司的网站。出现了一个像谷歌搜索一样的主页面,甚至比谷歌更简洁。敲入一个问题,它以闪电般的速度,给出了一个完整的答案。每秒钟278个token!
它号称是世界最快大模型,比GPT-4快18倍,测试中最快达到破纪录的每秒吞吐500 tokens,还用上了自研LPU(语言处理单元),是一种名为张量流处理器(TSP)的新型处理单元,自然语言处理速度是英伟达GPU 10倍,做到了推理的最低延迟。
前段时间,Groq曾公开基准测试结果,已经引起关注。在去年的高性能计算会议 SC23 上,Groq 以每秒超过 280 个 Token 的速度生成回复,刷新了 Llama-2 70B 推理的性能纪录。今年 1 月,Groq 首次参与公开基准测试,就在 Anyscale 的 LLMPerf 排行榜上取得了突出的成绩,远超其他基于云的推理提供商。
目前,LPU推理引擎可支持多种用于模型推理的机器学习开发框架,包括PyTorch、TensorFlow和ONNX。
尽管社交媒体称之为“最快大模型”,Groq还是做出了澄清:“我们不是大型语言模型。我们的LPU推理引擎是一种新型的端到端处理单元系统,它为计算密集型应用提供最快的推理能力,这些应用具有序列组件,例如人工智能语言应用。” 它只提供推理,不能用来训练大模型。
目前它采用了Mistral 8X7B和Llama2 70B两种最流行的开源模型,适配到其编译器上运行。它们的商业模式是针对大型系统,也为企业部署,它不出售单卡/芯片。因为拥有芯片到系统的整个技术栈,而且没有中间商,它能产生单位Token的价格优势。
Groq芯片的厉害之处,各路自称专家的做出了不同的解读,但真正权威的,还应该是Groq的首席架构师和研究员 Igor Arsovski。
他认为,传统的高性能计算(HPC)系统和数据中心使用动态的时间和空间共享,平台动态协调计算、内存和网络资源在线程或工作负载之间的使用。这对于不可预测的计算工作负载来说是一个自然的解决方案,其不可预测性使得这种调解成为先决条件。不幸的是,这导致了堆栈的所有层面上的效率和复杂性成倍增加:处理器架构、内存、网络等等。
然而,现代AI工作负载具有可预测的结构,允许对计算和网络资源进行高效的静态调度。Groq通过从底层使组件确定性化,改变了这个游戏的规则。这就决定了LPU与GPU的工作原理不同。
“我们开发了大规模同步计算平台,赋予软件静态进行更多编排决策的能力。与传统网络不同,在Groq网络中,所有流量都由Groq编译器完全预先计划,没有网络冲突。这不仅最大化了链接的利用率,还最大化了芯片之间可采取的最小路径数量。”
确定性计算和静态编排引入了新的软硬件挑战和共同优化机会,克服这些挑战为AI工作负载上的更大计算和功率效率解锁了机会。Groq的软件调度网络提供了关键优势,包括:
(1)通过编译器驱动的网络流量调度实现全局网络负载平衡;
(2)通过低控制开销实现高网络带宽效率;
以及(3)通过直接拓扑实现低延迟的芯片到芯片通信。
LPU的架构,无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据,也不需要依赖高速数据传输。Groq的LPU在其系统中内嵌了SRAM(静态随机存储芯片),比HBM快约20倍。LPU只进行推理计算,需要的数据量远小于模型训练,从外部内存读取的数据更少,消耗的电量也低于GPU。Groq的LPU芯片设计实现了多个TSP的无缝连接,避免了GPU集群中的瓶颈问题,显著地提高了可扩展性。
因此,Groq公司宣称,其LPU所带来的AI推理计算是革命性的。
Groq成立于2016年,位于加州山景,目前有员工180人。其CEO兼联合创始人Jonathan Ross在创立Groq之前,曾是谷歌的员工,在一个项目中负责了其中的20%,设计并实现了第一代TPU芯片的核心元素,这就是后来的谷歌张量处理单元(TPU)。
对比一些流行的(开源)模型所提供的API服务,Groq自认为性价比最高。Ross提出了Token作为服务的概念(TaaS),即按照每秒钟的吞吐的词元数量进行定价。
这是Groq使用的一张第三方机构的分析。从中可以看出,Groq每百万token的价格最低,在0.7美元左右,而且其吞吐速度看起来“遥遥领先”。其中排第二位的,是华人AI科学家贾扬清创办的Lepton。
但是,在同样一家机构出示的另外的图表上,比较吞吐量与质量,以及比较价格与质量,Groq就消失了。显然,目前Groq仅在吞吐量与价格这一项指标上表现比较突出。
Groq就是快。但部署起来并不便宜。
贾扬清做了一番估算,采购性能相当的H100和Groq服务器,运行三年,H100在初始投资及运营成本(主要是电费)方面,要远优于Groq卡。
-
每张 Groq 卡的内存为230MB。
-
对于 LLaMA 70b 模型,假设使用 int8 量化,并完全忽略推理过程中的内存消耗,所需的最少卡片数量为 305 张。实际上需要更多,有报告指出需要 572 张卡片,因此我们将基于 572 张卡片进行计算。
-
每张 Groq 卡的价格为 20,000 美元,因此,购买 572 张卡片的成本为 1144 万美元。当然,由于销售策略和规模效应,每张卡的价格可能会低得多,但现在让我们先按照标价计算。(据其后续补充,每张卡的BOM应该在1000美元~2000美元之间——编者注 )
-
对于 572 张卡片,每张卡的平均功耗为 185W,不包括外围设备的总功耗为 105.8kW。(注意,实际消耗会更高。)
-
目前,数据中心每月每千瓦的平均价格约为 200 美元,这意味着年电费为 105.8 * 200 * 12 = 25.4 万美元。
-
基本上,使用 4 张 H100 卡可以实现 Groq 一半的性能,这意味着一个 8 卡 H100 盒子在能力上大致相当于上述配置。一个 8 卡 H100 的名义最大功率为 10kW(实际约为 8-9 kW),因此年电费为 24,000 美元或略低。
-
如今,一个 8 卡 H100 盒子的价格约为 30 万美元。
-
因此,如果运行三年,Groq 的硬件购买成本为 1144 万美元,运营成本为 76.2 万美元。对于一个 8 卡 H100 盒子,硬件购买成本为 30 万美元,运营成本为 7.2 万美元或略低。
他进一步吐槽说:坦白说,我们对目前的词元价格加上速度服务等级协议(SLA)的组合并不满意。换句话说,我们对词元的价格是满意的,但如果有人大量并行调用API,我们不保证速度。言外之意,似乎Groq也会面临同样的问题。
由于GPU的生态极为发达,Groq目前只能绑定少数较大模型服务客户。它需要扩展其服务量,进一步降低TCO (总体成本),这样在低延迟方面的优势才能持续建立起来。
尽管如此,Groq的技术和模式很有启发性:
1. 它的芯片+推理服务,端到端的AI模式,也是一些大模型公司正在考虑的,OpenAI推出了Sora,很快也将推出GPT-5,但其算力正严重影响其业务的进一步发展,它在推理延迟方面,以及大量并发调用其API服务方面,都需要更强大高效的算力。奥特曼从去年底就一直在忙乎融资造芯片,故事越讲越大,已经达到了7万亿美元。
2. 大模型推理等AI专用加速芯片,也是英伟达正在努力的方向。GPU是数据中心的通用芯片,但是在一些专用的领域,它并不是效率最高的。目前各大科技巨头、一些芯片设计独角兽企业,都在研发更具效率、部分替代GPU的芯片。英伟达也已经意识到这一点,建立起了定制芯片的业务部门。
3. 它是GPU的一个重要补充,它让面对紧缺昂贵的GPU芯片的初创企业有了一个新的选择。据测算,目前AI初创企业融到的钱,其中60%到75%花到GPU上,这是一家独大卡脖子的局面。
4. 谷歌出身的Groq团队,做出的对话框速度之快,极大改变了推理的体验,它让人们进一步思考接下来搜索的前途和发展方向。
One More Thing:
Groq成立于2016年,这个词来自Grok。
Grok是美国作家海因莱因(Robert A. Heinlein)1961年科幻小说《异乡异客》(Stranger in a Strange Land)中创造的一个词。
Grok是一个火星词,在地球语中无法定义,但延伸出各种字面意义,如“水”、“饮用”、“相互关联”、“生命”或“生活”,并且具有更为深刻的喻义。在地球文化的单一现实中,词意更颇为迷离。
书中描述,饮水是火星上的一个生存焦点,那里水资源稀缺。火星人用他们的身体与水融合,成为一个简单的例子或象征,展示了两个实体如何结合创造出一个大于部分之和的新现实。水成为饮水者的一部分,饮水者也成为水的一部分。两者相互理解(grok)。曾经拥有独立现实的事物变得在相同的经历、目标、历史和宗旨中交织在一起。在书中,主要角色之间口头表达的神圣声明,是发自内心的,“你即是上帝”,是从grok这一术语内在概念中逻辑推导出来的。
(注:本文作者在选取这段英文原文翻译成中文时,Groq的确要快很多,但GPT-4的翻译在信达雅方面结合得更好,因此选用了GPT-4的翻译,并进行了编辑润色。)
Grok很快在计算机、极客、黑客圈子里流行开来,并且成为60年代兴起的反主流文化中的一个重要词汇。
马斯克2023年准备推出自己的模型时,一度想用Groq,但Groq已经注册了商标,并且发出警告,于是马斯克就“盗用”了Grok。
本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究