AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

热搜大全 > 新闻热搜 > 科技热搜 > 正文

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

热搜大全 2024-02-21

芯东西 2 月 21 日报道，在 OpenAI 推出又一爆款力作 AI 视频生成模型 Sora 后，连带着偏上游的 AI 芯片赛道热度一点即着。

创始成员来自谷歌 TPU 团队的美国存算一体 AI 芯片公司 Groq 便是最新赢家。这家创企自称其自研 AI 推理引擎 LPU 做到了 " 世界最快推理 "，由于其超酷的大模型速度演示、远低于 GPU 的 token 成本，这颗 AI 芯片最近讨论度暴涨。连原阿里副总裁贾扬清都公开算账，分析 LPU 和 H100 跑大模型的采购和运营成本到底差多少。

就在 Groq 风风火火之际，全球最大 AI 芯片公司英伟达陷入了一些振荡。今日英伟达官宣将在 3 月 18 日 -21 日举办其年度技术盛会 GTC24，但其股市表现却不甚理想。受投资者快速撤股影响，英伟达今日股价降低 4.35%，创去年 10 月以来最大跌幅，一日之间市值缩水 780 亿美元。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

▲英伟达太平洋时间 2 月 20 日股价出现显著下跌

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

根据 Groq 及一些网友分享的技术演示视频及截图，在 LPU 上跑大语言模型 Mixtral 8x7B-32k，生成速度快到接近甚至超过 500tokens/s，远快于公开可用的 OpenAI ChatGPT 4。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

▲输入相同指令，ChatGPT 4 生成回答的时间大约 1 分钟，而在 Groq 上运行的 Mixtral 8x7B-32k 只用时 11 秒。

" 这是一场革命，不是进化。"Groq 对自己的进展信心爆棚。

2016 年底，谷歌 TPU 核心团队的十个人中，有八人悄悄组队离职，在加州山景城合伙创办了新公司 Groq。接着这家公司就进入神隐状态，直到 2019 年 10 月才通过一篇题为《世界，认识 Groq》的博客，正式向世界宣告自己的存在。

随后 " 官网喊话 " 就成了 Groq 的特色，尤其是近期，Groq 接连发文 " 喊话 " 马斯克、萨姆 · 阿尔特曼、扎克伯格等 AI 大佬。特别是在《嘿萨姆 …》文章中，公然 " 嫌弃 "OpenAI 的机器人太慢了，并给自家 LPU 打广告，声称运行大语言模型和其他生成式 AI 模型的速度是其他 AI 推理解决方案速度的 10 倍。

现在，Groq 继续保持着高调，除了官号积极出面互动外，前员工和现员工还在论坛上 " 撕 " 起来了。前员工质疑实际成本问题，现员工则抨击这位前员工离开并创办了一家 Groq 的竞争对手没做出 " 世界最低延迟的大语言模型引擎 " 没保证 " 匹配最便宜的 token 价格 "。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

面向 LPU 客户的大语言模型 API 访问已开放，提供免费 10 天、100 万 tokens 试用，可从 OpenAI API 切换。

Groq 致力于实现最便宜的每 token 价格，承诺其价格 " 超过同等上市型号的已发布供应商的任何已公布的每百万 tokens 价格 "。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

据悉，Groq 下一代芯片将于 2025 年推出，采用三星 4nm 制程工艺，能效预计相较前一代提高 15~20 倍，尺寸将变得更大。

执行相同任务的芯片数量也将大幅减少。当前 Groq 需要在 9 个机架中用 576 颗芯片才能完成 Llama 2 70B 推理，而到 2025 年完成这一任务可能只需在 2 个机架使用大约 100 个芯片。

一、1 秒内写出数百个单词，输出 tokens 吞吐量最高比竞品快 18 倍

按照 Groq 的说法，其 AI 推理芯片能将运行大语言模型的速度提高 10 倍、能效提高 10 倍。

要体验 LPU 上的大语言模型，需先创建一个 Groq 账户。

输入提示词 " 美国最好的披萨是什么？" 跑在 LPU 上的 Mixtral 模型飞速给出回答，比以前慢慢生成一行一行字的体验好很多。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

它还支持对生成的答案进行修改。

在公开的大语言模型基准测试上，LPU 取得了压倒性战绩，运行 Meta AI 大语言模型 Llama 2 70B 时，输出 tokens 吞吐量比所有其他基于云的推理供应商最高要快 18 倍。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

对于 Time to First Token，其缩短到 0.22 秒。由于 LPU 的确定性设计，响应时间是一致的，从而使其 API 提供最小的可变性范围。这意味着更多的可重复性和更少的围绕潜在延迟问题或缓慢响应的设计工作。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

AI 写作助手创企 HyperWriteAI 的 CEO Matt Shumer 评价 LPU" 快如闪电 "，" 不到 1 秒写出数百个单词 "，" 超过 3/4 的时间花在搜索上，而非生成 "，" 大语言模型的运行时间只有几分之一秒 "。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

有网友分享了图像生成的区域提示，并评价 " 非常印象深刻 "。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

二、贾扬清分析采购和运营成本：比 H100 服务器贵多了

Groq 芯片采用 14nm 制程工艺，搭载 230MB 片上共享 SRAM，内存带宽达 80TB/s，FP16 算力为 188TFLOPS，int8 算力为 750TOPS。

Groq 在社交平台上解答了一些常见问题：1、LPU 为每 token 提供很好的价格，因为效率高而且拥有从芯片到系统的堆栈，没有中间商；2、不卖卡 / 芯片，除非第三方供应商将其出售给研究 / 科学应用团体，销售内部系统；3、其设计适用于大型系统，而非单卡用户，Groq 的优势来自大规模的设计创新。

与很多大模型芯片不同的是，Groq 的芯片没有 HBM、没有 CoWoS，因此不受 HBM 供应短缺的限制。

在对 Meta Llama 2 模型做推理基准测试时，Groq 将 576 个芯片互连。按照此前 Groq 分享的计算方法，英伟达 GPU 需要大约 10~30J 来生成 token，而 Groq 每 token 大约需要 1~3J，也就是说推理速度是原来的 10 倍，‍‍‍‍‍‍‍‍‍‍‍‍‍‍ 成本是原来的 1/10，或者说性价比提高了 100 倍。

Groq 拿一台英伟达服务器和 8 机架 Groq 设备做对比，并声称非常确定配备 576 个 LPU 的 Groq 系统成本不到英伟达 DGX H100 的 1/10，而后者的运行价格已超过 40 万美元。等于说 Groq 系统能实现 10 倍的速度下，总成本只有 1/10，即消耗的空间越多，就越省钱。

自称是 "Groq 超级粉丝 " 的原阿里副总裁、创办 AI infra 创企 Lepton AI 的贾扬清则从另一个角度来考虑性价比，据他分析，与同等算力的英伟达 H100 服务器成本比较，Groq LPU 服务器实际要耗费更高的硬件采购成本和运营成本：

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

1. 每张 Groq 卡的内存为 230MB。对于 Llama 70B 模型，假设采用 int8 量化，完全不计推理的内存消耗，则最少需要 305 张卡。实际上需要的更多，有报道是 572 张卡，因此我们按照 572 张卡来计算。

2. 每张 Groq 卡的价格为 2 万美元，因此购买 572 张卡的成本为 1144 万美元。当然，因为销售策略和规模效益，每张卡的价格可能打折，姑且按照目录价来计算。

3. 572 张卡，每张卡的功耗平均是 185W，不考虑外设，总功耗为 105.8kW。 ( 注意，实际会更高 )

4. 现在数据中心平均每千瓦每月的价格在 200 美元左右，也就是说，每年的电费是 105.8 x 200 x 12 = 25.4 万美元。（注意，实际会更高）

5. 基本上，采用 4 张 H100 卡可实现 Groq 的一半性能，也就是说，一台 8 卡 H100 与上面的性能相当。8 卡 H100 的标称最大功率为 10kW（实际大概在 8-9kW ) ，因此每年电费为 2.4 万美元或更低一些。

6. 今天 8 卡 H100 的采购成本约为 30 万美元。

7. 因此，如果运行三年，Groq 的硬件采购成本是 1144 万美元，运营成本是 76.2 万美元或更高。8 卡 H100 的硬件购买成本是 30 万美元，运营成本为 7.2 万美元或更低一些。

如果按这个算法，运行 3 年，Groq 的采购成本将是 H100 的 38 倍，运营成本将是 H100 的 10 倍。

贾扬清还在评论区谈道：" 老实说，我们对当前的 token 价格速度 SLA 组合感到不适。换句话说，我们对 token 价格感到满意，但如果并行调用 API，我们无法保证速度。"

三、存算一体编译器优先，支撑更快的大语言模型计算

Groq 联合创始人兼 CEO Jonathan Ross 曾宣称，相比用英伟达 GPU，LPU 集群将为大语言推理提供更高吞吐量、更低延迟、更低成本。

"12 个月内，我们可以部署 10 万个 LPU；24 个月内，我们可以部署 100 万个 LPU。"Ross 说。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

▲ Groq 领导层

根据官网信息，LPU 代表语言处理单元，是 Groq 打造的一种新型端到端处理单元，旨在克服大语言模型的计算密度和内存带宽瓶颈，计算能力超过 GPU 和 CPU，能够减少计算每个单词所需时间，更快生成文本序列。消除外部内存瓶颈使得 LPU 推理引擎能够在大语言模型上提供比 GPU 好几个数量级的性能。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

LPU 采用了单核心时序指令集计算机架构，无需像传使用高带宽存储（HBM）的 GPU 那样频繁从内存中加载数据，能有效利用每个时钟周期，降低成本。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

▲传统 GPU 内存结构

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

▲ Groq 芯片内存结构

Groq 芯片的指令是垂直走向，而数据流向东西流动，利用位置和功能单元相交以执行操作。通过将计算和内存访问解耦，Groq 的芯片在处理数据时能进行大量读写，即一步之内有效进行计算与通信，提供低延迟、高性能和可预测的准确性。

其特点包括出色的时序性能、单核架构、大规模部署可维护的同步网络、能自动编译超过 500 亿参数的大语言模型、即时内存访问、较低精度水平下保持高准确度。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕

▲单个 LPU 架构

" 编译器优先 " 是 Groq 的秘密武器，使其硬件媲美专用集成电路（AISC）。但与功能固定的 AISC 不同的是，Groq 采用软件定义硬件的思路，利用了一个可以适应和优化不同模型的自定义编译器，使其编译器和体系结构共同构成了一个精简的、稳健的机器学习推理引擎，支持自定义优化，以平衡性能与灵活性。

AI芯片黑马一夜爆红：成本推算争议不断，前员工现员工互撕