从智能终端到人工智能终端的跃升可谓是智能化终端的“二次革命”,从底层硬件到操作系统,从应用框架到交互方式,都将发生天翻地覆的变化,整个终端及上下游产业也随时巨变。为推动人工智能终端产品普及,促进产业健康有序发展,《中国电子报》联手人工智能终端工作组推出“AI时代终端大变局”系列报道,将从产品之变、场景之变、技术之变、生态之变等角度探讨产业变化,并开设“大家谈”纸面圆桌论坛,凝聚业界智慧、共商产业大计。
CPU(中央处理器,Central Processing Unit)、GPU(图形处理器,Graphics Processing Unit)虽然是专业术语,却被很多消费者所熟知,因为电脑、笔记本等企业愿意“推销”其实用的CPU、GPU。但是,你有没有发现,现在不论是买手机、电脑等移动终端,还是音响、扫地机器人等智能家居产品,越来越多的消费电子产品在强调“NPU”了?
NPU(神经网络处理器,Neural network Processing Unit)算是处理器领域的后来者。该类处理器于2017年被华为集成到手机SoC中,因针对人工智能算法定制设计,相较于CPU和GPU实现了巨大的功耗节约。
正因为具备这样的特性,在消费终端经历AI变革的当下,NPU成为诸多消费电子产品选择的处理器“新宠”。NPU,果真是消费电子终端拥有本地AI能力的“尚方宝剑”吗?听听业内人士的观点。
朱臣才
荣耀终端股份有限公司PC产品总经理
关于要不要用NPU、要让什么任务运行在NPU上,涉及的其实是芯片与模型技术调教的问题。
经过研发团队在手机芯片与模型调教技术上的积累,我们提出了端侧模型异构计算架构。其核心思想是,对于多模型同时运行场景构建推理决策模块。该模块会根据当前PC后台运行状态和用户场景,决策推理调度策略,合理分配不同的模型运行在不同的硬件上。
具体来看:在视频电话、会议等场景中,用户对整机性能、温度比较敏感,这种情况下参数量较小的模型优先调用NPU进行推理;在常规办公、待机等场景中,用户对整机的性能和温度不敏感,这种情况下参数量较小的模型优先调用GPU进行推理;当模型参数量较大、要求算力较多的情况,该模块会将模型进行拆分,同时调用GPU及NPU进行推理。
在此基础上,我们也对模型进行了拆解,把同一个模型的不同算子分解到不同的硬件上运行,进一步实现了性能与功耗的平衡。下面举个我们优化模型的案例:
在最初的版本中,我们没有进行任何调优,大模型整体运行在GPU上,虽然性能达标,但整机功耗非常高,与玩一个大型游戏的功耗相当,显然这是商用场景无法接受的。而经过不断对架构深度优化,使AIPC同时调用GPU与NPU进行AI模型的运算,最终,商用版本端侧大模型的推理速提升了60% ,同时内存占用降低了69%。
高宇
英特尔一直在强调的XPU来运行AI,包含CPU、GPU、IGPU(集成显卡)、NPU等不同的处理单元。为什么呢?
AI应用在本地运行,并不能简单地理解为AI在NPU上运行,这是两个概念。很多AI应用也会运行在CPU、GPU、IGPU上。
我们以AI会议的场景来举例子。在这个场景中,将语音转化成文字的模型,会运行在CPU上的,因为这款模型在CPU上运行时的延时最短、吐字速度最快;而不同语种之间的翻译功能,会运行在IGPU上,因为IGPU适配的大模型种类更多、其支持模型的尺寸也更大,效果更好;以摄像头捕捉客户面部特征、并进行眼神校正的功能,是一个典型的应用计算机视觉应用,就特别适合运行在NPU上。
从这个案例中,就可以很明显地看出,即便是在一个垂直领域中,AI应用也需要充分利用不同架构处理器的结构,实现能效最优化。
龚存阳
星环科技无涯大模型产品研发经理
NPU目前发挥的是锦上添花的作用。一些小模型,例如语音转写模型或者OCR模型会优先跑在NPU上。NPU和GPU之间形成异构负载的关系,即GPU负载的时候,NPU也可以同时运行,和在GPU上运行的大模型不产生资源冲突。
如果要打造一台性能比较好的个人智能体电脑的话,其实目前处理器的性能已经能够应对大多数场景了。处理器已经不构成影响AIPC处理器性能的最主要因素,且价格也已达到消费者能够接受的水平。而至于电脑的智能化水平,其实很大程度上取决于生态链路建设的健全程度。
刘靖超
小米笔记本软件产品负责人
我认为,应该从用户场景看待这个问题,分场景选择恰当计算单元。NPU算力强功耗低,在需要持续推理、长期运行的场景是个不错选择,例如整机性能调度。同时,笔记本SoC的XPU架构包含CPU、GPU、NPU、ISP等多个算力单元:CPU响应快,适合强交互的应用场景;GPU算力高,在使用生成式模型的应用场景独具优势。综合来看,NPU是个非常好的本地模型算力单元,但是需持续提升NPU对模型的兼容性,降低模型适配投入成本,丰富开发者生态。
张伟超
大语言模型普遍采用Transformer架构,该架构的计算特性与存算一体的芯片结构高度契合。在后摩智能的NPU中,其核心矩阵计算单元便做了深度优化,能高效支撑边端大语言模型的运行。
不过消费者或许已留意到一种现象:不少配备iNPU的电脑,即便将应用下载至本地,也难以调用iNPU进行AI本地计算。而这一问题的根源,往往在于终端设备、主控芯片设计企业的资源编排能力,涉及到本地算力、显存容量和带宽,以及具体的工作负载如何在不同XPU之间进行分配、各种应用及功能该调用哪些硬件/软件资源,均需芯片设计者进行提前规划与调度,而这背后离不开芯片开发者对系统软件,推理框架和算法精度/算子的深度优化。
事实上,针对不同应用的负载调度是项极为复杂的系统工程,需要终端开发者、芯片开发者与应用开发者三方协同调优。这种负载分担绝非简单地将任务“拆分”给不同处理器,部分场景下,一项任务需要CPU、GPU、NPU协同参与,例如同一组数据可能需依次经过不同处理器的运算,这就涉及数据处理的“先后逻辑”问题。对此,部分芯片会通过PCIE总线构建调度机制:数据先传入CPU,由CPU判断任务归属后,再分发至对应处理器执行。这个过程会产生延迟,浪费计算资源和通信带宽。
所以,我们认为,独立NPU具有独立的显存和足够大的带宽,可以将专用的LLM/VLM负载从主处理CPU或图形渲染GPU上进行卸载,从而在游戏AIPC、会议终端OPS等智能终端市场中具有重要地位。
邵世佳
上海六联智能科技有限公司副总经理
NPU是端侧大模型本地运行的关键保障。它能更高效、持续地运行AI任务,既不至于像GPU那样高功耗,也不会占用CPU的通用算力。
与此同时,消费终端运行时,不同类型的处理器分别发挥不同的作用。以电脑产品为例,CPU主要负责统筹和任务调度,保证系统整体流畅;GPU负责处理高并发、复杂的推理和生成任务;NPU则常驻运行轻量化大模型,以实现高效、低功耗的智能服务。三者协同,才能使AIPC具备性能和能效优势,为用户提供长时间的智能体验。