在感受了 ChatGPT 和文生视频模型 Sora 接连带来震撼之后,所有人都会好奇,生成式 AI 与普通人的生活有什么关系?
手机厂商已经展示了生成式 AI 带来的全新体验,比如小米 14 系列的图像扩充,OPPO Find X7 Ultra 的一键 AI 路人消除,荣耀 Magic6 的智慧成片和智慧创建日程。
如果说云端的生成式 AI 展示了 AI 的强大,那端侧 AI 的普及就是激发生成式 AI 创新的动力。
想要在端侧普及生成式 AI,需要先解决算力、内存和生态三大难题。
异构计算和 NPU 解决算力瓶颈
生成式 AI 模型参数量大,算力是一个核心限制因素。
但大算力往往意味着高能耗,对于使用电池供电的 AI 手机和 AI PC,想要兼顾高性能和低功耗,异构架构的价值十分明显。
异构架构,就是一个处理器当中包含多种不同类型的处理单元。
手机 SoC 就是典型的异构架构,包含擅长顺序控制,适用于需要低时延的应用场景的 CPU;擅长高精度格式图像和视频并行处理的 GPU;还有擅长标量、向量和张量数学运算,可用于核心 AI 工作负载的 NPU。
异构计算的优势在于,可以根据应用的类型调用合适的处理器以达到最佳的能耗比,比如用 GPU 来完成重负荷游戏,用 CPU 执行多网页浏览,用 NPU 提升 AI 体验。
对于生成式 AI,异构计算的优势更加明显,因为生成式 AI 有多种用例,比如只需要短暂运行的按需型用例;需要长时间运行的持续型用例,如 AI 视频处理;以及始终开启的泛在型用例,如 PC 需要持续监测用户的设备使用情况,不同的用例对处理器的需求不同。
以在高通骁龙平台上实现虚拟 AI 助手与用户语音互动交流来解释异构计算的重要性。
用于给虚拟 AI 助手下达指令,需要通过自动语音识别(ASR)模型转化为文本,这一步主要在高通传感器中枢运行。
然后需要通过 Llama 2 或百川大语言模型生成文本回复,这一模型在 Hexagon NPU 上运行
接下来要通过开源 TTS(Text to Speech)模型将文本转为语音,这一过程需要 CPU。
输出语音的同时,需要使用融合变形动画(Blendshape)技术让语音与虚拟化身的嘴型匹配,实现音话同步。此后,通过虚幻引擎 MetaHuman 进行虚拟化身渲染,渲染工作在 Adreno GPU 上完成。
最终通过协同使用高通 AI 引擎上所有的多样化处理模块,实现出色的交互体验。
高通自 2015 年推出第一代 AI 引擎,就采用的异构计算的架构,包含 Kryo CPU、Adreno GPU、Hexagon DSP,这是高通保持在端侧 AI 领域领先的关键。
异构计算对于生成式 AI 的普及非常重要,其中的 NPU 又是关键。
比如在持续型用例中,需要以低功耗实现持续稳定的高峰值性能,NPU 可以发挥其最大优势。在基于 LLM 和大视觉模型(LVM)的不同用例,例如 Stable Diffusion 或其他扩散模型中,NPU 的每瓦特性能表现十分出色。
"高通 NPU 的差异化优势在于系统级解决方案、定制设计和快速创新。通过定制设计 NPU 并控制指令集架构 ( ISA ) ,高通能够快速进行设计演进和扩展,以解决瓶颈问题并优化性能。" 高通技术公司产品管理高级副总裁 Ziad Asghar 表示。
雷峰网了解到,高通对 NPU 的研究也是跟随需求的变化而演进,以 Hexagon DSP 为基础,进化为 Hexagon NPU。
"从 DSP 架构入手打造 NPU 是正确的选择,可以改善可编程性,并能够紧密控制用于 AI 处理的标量、向量和张量运算。高通优化标量、向量和张量加速的的设计方案结合本地共享大内存、专用供电系统和其他硬件加速,让我们的方案独树一帜。"Ziad Asgha 说。
Hexagon NPU 从 2015 年时面向音频和语音处理的的简单 CNN,到 2016-2022 年之间面向 AI 影像和视频处理,以实现增强的影像能力的 Transformer、LSTM、RNN、CNN。
2023 年,高通在 Hexagon NPU 中增加了 Transformer 支持。能够在终端侧运行高达 100 亿参数的模型,无论是首个 token 的生成速度还是每秒生成 token 的速率都处在业界领先水平。
测试数据显示,第三代骁龙 8 和三款 Android 以及 iOS 平台竞品的对比,在 MLCommon MLPerf 推理的不同子项中,例如图像分类、语言理解以及超级分辨率等,第三代高通骁龙 8 都保持领先。
同样集成了高通 AI 引擎的骁龙 X Elite,在面向 Windows 的 UL Procyon AI 推理基准测试中,ResNet-50、DeeplabV3 等测试中,基准测试总分分别为 X86 架构竞品 A 的 3.4 倍和竞品 B 的 8.6 倍。
如何解决内存瓶颈?
限制生成式 AI 普及的不仅有计算能力的限制,内存限制也是大语言模型 token 生成的瓶颈,这要解决的是 CPU、GPU、NPU 的内存效率问题。
内存瓶颈来源于 AI 计算数据的读取和搬移。
例如,一个 NxN 矩阵和另一个 NxN 矩阵相乘,需要读取 2N2 个值并进行 2N3 次运算 ( 单个乘法和加法 ) 。在张量加速器中,每次内存访问的计算操作比率为 N:1,而对于标量和向量加速器,这一比率要小得多。
解决内存瓶颈的挑战,高通有微切片和量化等关键技术。
2022 年发布的第二代骁龙 8,微切片推理利用 HexagonNPU 的标量加速能力 , 将神经网络分割成多个能够独立执行的微切片,消除了高达 10 余层的内存占用,市面上的其他 AI 引擎则必须要逐层进行推理。
量化技术也是解决内存挑战的关键。高通 Hexagon NPU 原生支持 4 位整数 ( INT4 ) 运算,能够提升能效和内存带宽效率,同时将 INT4 层和神经网络的张量加速吞吐量量提高一倍。
在最新的第三代骁龙 8 中,Hexagon NPU 微架构升级,微切片推理进一步升级,支持更高效的生成式 Al 处理,并降低内存带宽占用。
此外,Hexagon 张量加速器增加了独立的电源传输轨道,让需要不同标量、向量和张量处理规模的 AI 模型能够实现最高性能和效率。共享内存的带宽也增加了一倍。
还有一个非常关键的升级,第三代骁龙 8 支持业界最快的内存配置之一:4.8GHzLPDDR5x,支持 77GB/s 带宽,能够满足生成式 AI 用例日益增长的内存需求。
更高性能的内存结合升级的微切片和量化技术,能最大程度消除端侧 AI 普及内存的瓶颈。当然,生成式 AI 模型也在变化。
" 高通 AI 引擎中集成了模型压缩等更多技术,以确保模型能够在 DRAM 上顺利运行。"Ziad Asghar 说," 在模型端,我们看到 MoE(Mixture of Experts)模型兴起的趋势,这一类型的模型能够将特定部分放在内存中运行,其他的放在内存外,对模型进行优化。"
计算和内存限制的问题之后,是更具挑战性的生态问题。
如何降低 AI 开发门槛?
AI 潜力的爆发需要生态的繁荣,生态的繁荣需要足够多的开发者,最终这就变成了一个 AI 开发门槛的问题。
对于硬件平台的提供者来说,可以最大化降低开发者的使用门槛,能够让开发者用高级语言开发的程序简单高效地运行在 AI 引擎上。
高通做了非常多的工作,高通 AI 软件栈(Qualcomm AI Stack),支持目前所有的主流 AI 框架,包括 TensorFlow、PyTorch、ONNX、Keras;它还支持所有主流的 AI runtime,包括 DirectML、TFLite、ONNX Runtime、ExecuTorch,以及支持不同的编译器、数学库等 AI 工具。
" 我们还推出了 Qualcomm AI studio,为开发者提供开发过程中需要用到的相关工具,其中包括支持模型量化和压缩的高通 AI 模型增效工具包(AIMET),能够让模型运行更加高效。"Ziad Asgha 进一步表示,"基于高通 AI 软件栈和核心硬件 IP,我们能够跨高通所有不同产品线,将应用规模化扩展到不同类型的终端,从智能手机到 PC、物联网终端、汽车等。"
AI 生态的繁荣,还需要多方的共同努力,高通支持 Transformer 的 Hexagon NPU,以及异构的高通 AI 引擎,已经提供了很好的基础。
还需要看到的是,终端侧 AI 处理有成本、能效、可靠性、性能时延、个性化方面的诸多优势。了解更多终端侧生成式 AI 的资料可以查阅《通过 NPU 和异构计算开启终端生成式 AI》白皮书。
热点 博物馆 微信公众号 拖鞋 网友 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-07-23
娱乐热点 张柏芝 造型 长裙 紧身 气质 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-09-23
科技热搜 绥化 大庆 高速公路 卫星 中国铁建 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-06
科技热搜 工资 行业 资产 北京 家庭 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-12-07
科技热搜 ssd type-c 京东 酷睿 intel 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-06
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13