芯东西 2 月 21 日报道,在 OpenAI 推出又一爆款力作 AI 视频生成模型 Sora 后,连带着偏上游的 AI 芯片赛道热度一点即着。
创始成员来自谷歌 TPU 团队的美国存算一体 AI 芯片公司 Groq 便是最新赢家。这家创企自称其自研 AI 推理引擎 LPU 做到了 " 世界最快推理 ",由于其超酷的大模型速度演示、远低于 GPU 的 token 成本,这颗 AI 芯片最近讨论度暴涨。连原阿里副总裁贾扬清都公开算账,分析 LPU 和 H100 跑大模型的采购和运营成本到底差多少。
就在 Groq 风风火火之际,全球最大 AI 芯片公司英伟达陷入了一些振荡。今日英伟达官宣将在 3 月 18 日 -21 日举办其年度技术盛会 GTC24,但其股市表现却不甚理想。受投资者快速撤股影响,英伟达今日股价降低 4.35%,创去年 10 月以来最大跌幅,一日之间市值缩水 780 亿美元。
▲英伟达太平洋时间 2 月 20 日股价出现显著下跌
根据 Groq 及一些网友分享的技术演示视频及截图,在 LPU 上跑大语言模型 Mixtral 8x7B-32k,生成速度快到接近甚至超过 500tokens/s,远快于公开可用的 OpenAI ChatGPT 4。
▲输入相同指令,ChatGPT 4 生成回答的时间大约 1 分钟,而在 Groq 上运行的 Mixtral 8x7B-32k 只用时 11 秒。
" 这是一场革命,不是进化。"Groq 对自己的进展信心爆棚。
2016 年底,谷歌 TPU 核心团队的十个人中,有八人悄悄组队离职,在加州山景城合伙创办了新公司 Groq。接着这家公司就进入神隐状态,直到 2019 年 10 月才通过一篇题为《世界,认识 Groq》的博客,正式向世界宣告自己的存在。
随后 " 官网喊话 " 就成了 Groq 的特色,尤其是近期,Groq 接连发文 " 喊话 " 马斯克、萨姆 · 阿尔特曼、扎克伯格等 AI 大佬。特别是在《嘿 萨姆 …》文章中,公然 " 嫌弃 "OpenAI 的机器人太慢了,并给自家 LPU 打广告,声称运行大语言模型和其他生成式 AI 模型的速度是其他 AI 推理解决方案速度的 10 倍。
现在,Groq 继续保持着高调,除了官号积极出面互动外,前员工和现员工还在论坛上 " 撕 " 起来了。前员工质疑实际成本问题,现员工则抨击这位前员工离开并创办了一家 Groq 的竞争对手 没做出 " 世界最低延迟的大语言模型引擎 " 没保证 " 匹配最便宜的 token 价格 "。
面向 LPU 客户的大语言模型 API 访问已开放,提供免费 10 天、100 万 tokens 试用,可从 OpenAI API 切换。
Groq 致力于实现最便宜的每 token 价格,承诺其价格 " 超过同等上市型号的已发布供应商的任何已公布的每百万 tokens 价格 "。
据悉,Groq 下一代芯片将于 2025 年推出,采用三星 4nm 制程工艺,能效预计相较前一代提高 15~20 倍,尺寸将变得更大。
执行相同任务的芯片数量也将大幅减少。当前 Groq 需要在 9 个机架中用 576 颗芯片才能完成 Llama 2 70B 推理,而到 2025 年完成这一任务可能只需在 2 个机架使用大约 100 个芯片。
一、1 秒内写出数百个单词,输出 tokens 吞吐量最高比竞品快 18 倍
按照 Groq 的说法,其 AI 推理芯片能将运行大语言模型的速度提高 10 倍、能效提高 10 倍。
要体验 LPU 上的大语言模型,需先创建一个 Groq 账户。
输入提示词 " 美国最好的披萨是什么?" 跑在 LPU 上的 Mixtral 模型飞速给出回答,比以前慢慢生成一行一行字的体验好很多。
它还支持对生成的答案进行修改。
在公开的大语言模型基准测试上,LPU 取得了压倒性战绩,运行 Meta AI 大语言模型 Llama 2 70B 时,输出 tokens 吞吐量比所有其他基于云的推理供应商最高要快 18 倍。
对于 Time to First Token,其缩短到 0.22 秒。由于 LPU 的确定性设计,响应时间是一致的,从而使其 API 提供最小的可变性范围。这意味着更多的可重复性和更少的围绕潜在延迟问题或缓慢响应的设计工作。
AI 写作助手创企 HyperWriteAI 的 CEO Matt Shumer 评价 LPU" 快如闪电 "," 不到 1 秒写出数百个单词 "," 超过 3/4 的时间花在搜索上,而非生成 "," 大语言模型的运行时间只有几分之一秒 "。
有网友分享了图像生成的区域提示,并评价 " 非常印象深刻 "。
二、贾扬清分析采购和运营成本:比 H100 服务器贵多了
Groq 芯片采用 14nm 制程工艺,搭载 230MB 片上共享 SRAM,内存带宽达 80TB/s,FP16 算力为 188TFLOPS,int8 算力为 750TOPS。
Groq 在社交平台上解答了一些常见问题:1、LPU 为每 token 提供很好的价格,因为效率高而且拥有从芯片到系统的堆栈,没有中间商;2、不卖卡 / 芯片,除非第三方供应商将其出售给研究 / 科学应用团体,销售内部系统;3、其设计适用于大型系统,而非单卡用户,Groq 的优势来自大规模的设计创新。
与很多大模型芯片不同的是,Groq 的芯片没有 HBM、没有 CoWoS,因此不受 HBM 供应短缺的限制。
在对 Meta Llama 2 模型做推理基准测试时,Groq 将 576 个芯片互连。按照此前 Groq 分享的计算方法,英伟达 GPU 需要大约 10~30J 来生成 token,而 Groq 每 token 大约需要 1~3J,也就是说推理速度是原来的 10 倍, 成本是原来的 1/10,或者说性价比提高了 100 倍。
Groq 拿一台英伟达服务器和 8 机架 Groq 设备做对比,并声称非常确定配备 576 个 LPU 的 Groq 系统成本不到英伟达 DGX H100 的 1/10,而后者的运行价格已超过 40 万美元。等于说 Groq 系统能实现 10 倍的速度下,总成本只有 1/10,即消耗的空间越多,就越省钱。
自称是 "Groq 超级粉丝 " 的原阿里副总裁、创办 AI infra 创企 Lepton AI 的贾扬清则从另一个角度来考虑性价比,据他分析,与同等算力的英伟达 H100 服务器成本比较,Groq LPU 服务器实际要耗费更高的硬件采购成本和运营成本:
1. 每张 Groq 卡的内存为 230MB。对于 Llama 70B 模型,假设采用 int8 量化,完全不计推理的内存消耗,则最少需要 305 张卡。实际上需要的更多,有报道是 572 张卡,因此我们按照 572 张卡来计算。
2. 每张 Groq 卡的价格为 2 万美元,因此购买 572 张卡的成本为 1144 万美元。当然,因为销售策略和规模效益,每张卡的价格可能打折,姑且按照目录价来计算。
3. 572 张卡,每张卡的功耗平均是 185W,不考虑外设,总功耗为 105.8kW。 ( 注意,实际会更高 )
4. 现在数据中心平均每千瓦每月的价格在 200 美元左右,也就是说,每年的电费是 105.8 x 200 x 12 = 25.4 万美元。(注意,实际会更高)
5. 基本上,采用 4 张 H100 卡可实现 Groq 的一半性能,也就是说,一台 8 卡 H100 与上面的性能相当。8 卡 H100 的标称最大功率为 10kW(实际大概在 8-9kW ) ,因此每年电费为 2.4 万美元或更低一些。
6. 今天 8 卡 H100 的采购成本约为 30 万美元。
7. 因此,如果运行三年,Groq 的硬件采购成本是 1144 万美元,运营成本是 76.2 万美元或更高。8 卡 H100 的硬件购买成本是 30 万美元,运营成本为 7.2 万美元或更低一些。
如果按这个算法,运行 3 年,Groq 的采购成本将是 H100 的 38 倍,运营成本将是 H100 的 10 倍。
贾扬清还在评论区谈道:" 老实说,我们对当前的 token 价格 速度 SLA 组合感到不适。换句话说,我们对 token 价格感到满意,但如果并行调用 API,我们无法保证速度。"
三、存算一体 编译器优先,支撑更快的大语言模型计算
Groq 联合创始人兼 CEO Jonathan Ross 曾宣称,相比用英伟达 GPU,LPU 集群将为大语言推理提供更高吞吐量、更低延迟、更低成本。
"12 个月内,我们可以部署 10 万个 LPU;24 个月内,我们可以部署 100 万个 LPU。"Ross 说。
▲ Groq 领导层
根据官网信息,LPU 代表语言处理单元,是 Groq 打造的一种新型端到端处理单元,旨在克服大语言模型的计算密度和内存带宽瓶颈,计算能力超过 GPU 和 CPU,能够减少计算每个单词所需时间,更快生成文本序列。消除外部内存瓶颈使得 LPU 推理引擎能够在大语言模型上提供比 GPU 好几个数量级的性能。
LPU 采用了单核心时序指令集计算机架构,无需像传使用高带宽存储(HBM)的 GPU 那样频繁从内存中加载数据,能有效利用每个时钟周期,降低成本。
▲传统 GPU 内存结构
▲ Groq 芯片内存结构
Groq 芯片的指令是垂直走向,而数据流向东西流动,利用位置和功能单元相交以执行操作。通过将计算和内存访问解耦,Groq 的芯片在处理数据时能进行大量读写,即一步之内有效进行计算与通信,提供低延迟、高性能和可预测的准确性。
其特点包括出色的时序性能、单核架构、大规模部署可维护的同步网络、能自动编译超过 500 亿参数的大语言模型、即时内存访问、较低精度水平下保持高准确度。
▲单个 LPU 架构
" 编译器优先 " 是 Groq 的秘密武器,使其硬件媲美专用集成电路(AISC)。但与功能固定的 AISC 不同的是,Groq 采用软件定义硬件的思路,利用了一个可以适应和优化不同模型的自定义编译器,使其编译器和体系结构共同构成了一个精简的、稳健的机器学习推理引擎,支持自定义优化,以平衡性能与灵活性。
▲ Groq 的简化软件定义硬件方法释放了额外的芯片空间和处理能力
受软件优先思想的启发,Groq 将执行控制和数据流控制的决策步骤从硬件转移到了编译器,以调度跨网络的数据移动。所有执行计划都在软件栈中进行,不再需要硬件调度器来弄清楚如何将东西搬到芯片上。这释放了宝贵的芯片空间,并提供了额外的内存带宽和晶体管来提高性能。
▲传统的非确定性网络与软件调度网络的比较
Groq 的简化架构去除了芯片上对 AI 没有任何处理优势的多余电路,实现了更高效的芯片设计,每平方毫米的性能更高。其芯片将大量的算术逻辑单元与大量的片上内存结合,并拥有充足带宽。
由于控制流程已进入软件栈,硬件是一致且可预测的,开发人员可以精确获知内存使用情况、模型效率和延迟。这种确定性设计使用户可在将多芯片扩展连接时,精确把控运行一次计算需要多长时间,更加专注于算法并更快地部署解决方案,从而简化了生产流程。
扩展性方面,当 Groq 芯片扩展到 8 卡、16 卡、64 卡,所支持的性能和延迟如下:
Groq 工程师认为,必须谨慎使用 HBM 的原因是它不仅涉及延迟,还有 " 非确定性 " 问题。LPU 架构的一大好处是可以构建能快速互连的数百个芯片的系统,并知道整个系统的精确时间在百万分之几以内。而一旦开始集成非确定性组件,就很难确保对延迟的承诺了。
结语:AI 芯片上演新故事
Groq 气势汹汹地向 " 世界最快大模型推理芯片 " 的目标发起总攻,给高性能 AI 推理市场带来了新的期待。
在系统级芯片采购和运营成本方面,Groq 可能还难以做到与 H100 匹敌,但从出色的单 batch 处理和压低 token 价格来看,其 LPU 推理引擎已经展现出相当的吸引力。
随着生成式 AI 应用进入落地潮,AI 芯片赛道也是时候多上演一些新故事了。
热点 博物馆 微信公众号 拖鞋 网友 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-07-23
科技热搜 工资 行业 资产 北京 家庭 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-12-07
娱乐热点 明星 横店 罗志祥 圈外人 指向性 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-02-21
娱乐热点 张柏芝 造型 长裙 紧身 气质 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-09-23
科技热搜 绥化 大庆 高速公路 卫星 中国铁建 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-06
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13