研究报告:云服务提供商用于人工智能工作负载的定制芯片
战略规划假设
由于当前行业趋势显示云服务提供商正在为特定人工智能工作负载开发定制芯片,到2028年,40%的人工智能训练和推理工作负载将在云服务提供商设计的定制人工智能芯片上运行,而非商业GPU(概率0.60)。
市场证据
定制芯片在三种主要类型的人工智能工作负载中表现卓越,这些工作负载受益于专业架构优化。首先,推理工作负载——即已训练的人工智能模型生成输出的过程——从AWS Inferentia和Google的TPU等专为高效执行这些操作而设计的定制芯片中获益显著,这些芯片比通用GPU提供更高的每瓦性能。其次,推荐系统,即为社交媒体和电子商务平台提供内容建议的系统,是定制芯片优化的理想候选,如Meta的MTIA芯片,专为处理这些高容量、低延迟敏感工作负载的独特计算模式而设计。第三,自然语言处理任务,特别是大型语言模型训练和推理,已成为定制芯片开发的主要目标,Microsoft的Maia 100和Google的TPU专门设计用于加速这些计算密集型工作负载中占主导地位的矩阵乘法运算。
人工智能芯片格局
人工智能芯片格局正在经历根本性转变,主要云服务提供商大力投资开发针对其特定人工智能工作负载和运营环境优化的专有芯片。Microsoft于2023年底通过宣布其Azure Maia 100 AI加速器进入定制芯片领域,该加速器拥有1050亿晶体管,使用台积电5nm工艺制造,专为大型语言模型训练和推理而设计。Google继续推进其张量处理单元(TPU)战略,现已进入第七代,最近宣布的Ironwood芯片据报道为专业人工智能工作负载提供前代产品24倍的计算能力。亚马逊AWS建立了全面的定制芯片组合,包括用于人工智能训练的Trainium和用于推理的Inferentia,其最新的Trainium3芯片承诺比前几代产品提供两倍的性能和40%更好的能源效率。这些投资表明云服务提供商对控制其人工智能基础设施栈的战略重要性,Meta同样开发其Meta训练和推理加速器(MTIA),专为其独特的人工智能工作负载定制。这一趋势不仅限于加速器,还延伸到完整的基础设施栈,Microsoft还开发了基于Arm架构的Azure Cobalt CPU,以补充其人工智能加速能力,创建了专为基于云的人工智能工作负载和服务优化的集成环境。
驱动定制芯片采用的技术差异化
云服务提供商开发定制芯片的技术理由提出了一个超越纯粹垂直整合战略的令人信服的案例。传统GPU虽然在通用人工智能计算方面功能强大,但应用于主导云平台的专业工作负载时存在显著限制,为专用架构创造了机会。正如技术分析师所指出的,"传统CPU和GPU是出色的全能手,但对人工智能应用的特定需求并不完美",而定制芯片专为在深度学习模型中处理核心的矩阵乘法和其他操作而设计。Google的TPU架构展示了通过专业化可能实现的性能优势,每一代产品与通用替代品相比,为特定人工智能工作负载提供显著改进。定制芯片开发的经济激励同样重要,AWS报告其定制芯片为"云人工智能工作负载提供更高效率的服务器更高密度",直接影响人工智能服务的成本结构。云服务提供商不仅优化芯片的计算性能,还优化完整的系统架构,在芯片间互连方面取得显著进展,如Microsoft实施的PCIe Gen5为每个GPU提供64GB/s带宽。人工智能模型日益增加的复杂性在训练和推理工作负载之间创造了自然的分化,允许专业架构以比通用处理器更高的效率针对人工智能开发生命周期的特定部分。随着云服务提供商对人工智能工作负载的经验加深,他们设计芯片解决系统中特定瓶颈的能力也在提高,创造了一个优化的良性循环,进一步将其产品与商业替代品区分开来。
定制芯片的经济必要性
推动云服务提供商采用定制芯片战略的财务动态反映了进攻性竞争定位和对关键供应链的防御性控制。根据高盛的数据,GPU市场预计到2029年将增长至2740亿美元,云服务提供商有强烈动机通过垂直整合而非继续依赖第三方供应商来获取这一价值的部分。成本结构优势可能是巨大的,据报道,Microsoft的Maia芯片能够为"云人工智能工作负载的服务器提供更高密度和更高效率",直接影响他们向客户提供的人工智能服务的成本结构。资本支出计划揭示了这些投资的规模,预计主要云服务提供商仅在2025年就将在人工智能加速器上花费超过500亿美元,通过定制芯片开发带来重大的成本优化机会。随着人工智能工作负载继续增长为整体云计算活动的百分比,经济案例更加强大,麦肯锡的分析表明,人工智能工作负载的功耗将以26%至36%的年复合增长率增长到2028年,创造强大的激励来优化计算基础设施的每个方面。定制芯片在组件短缺期间为云服务提供商提供对关键供应链的更大控制权,减少他们对商业GPU市场中困扰的分配限制的脆弱性。针对特定工作负载优化的定制芯片大幅改善了人工智能计算的单位经济性,与基于GPU的替代品相比,亚马逊的Inferentia芯片为深度学习推理提供"高达2.3倍的更高吞吐量和高达70%的更低成本"。总的来说,这些经济因素为定制芯片战略投资创造了令人信服的商业案例,特别是对于规模足够大的最大云服务提供商,可以分摊巨大的开发成本。
采用模式
云服务提供商定制芯片的采用曲线将在人工智能市场的不同细分市场中遵循不同的模式,影响这些技术的时间表和最终渗透率。企业客户在选择基础设施时越来越考虑工作负载特定的性能特性,而非通用计算能力,为专业芯片创造自然分割机会。初始部署重点主要在推理工作负载上,专业芯片的性能和效率优势在这里最为明显,AWS报告其Inferentia芯片与通用替代品相比,为推理应用提供"高达70%的更低成本"。训练工作负载由于其复杂性和快速发展的需求,对定制芯片来说是更具挑战性的目标,但云服务提供商取得了显著进展,Google的TPU架构和Microsoft的Maia芯片专为解决这些工作负载而设计。采用轨迹将受到围绕定制芯片的软件生态系统发展的影响,云服务提供商大力投资框架和工具,促进工作负载迁移而无需进行广泛的代码修改。混合方法正在出现作为更广泛采用的垫脚石,云服务提供商提供编程模型,允许客户开发可以在定制芯片和商业GPU上高效运行的应用程序,降低迁移障碍。最终渗透率将受到云服务提供商能否提供令人信服的性能和成本优势的影响,以克服现有以GPU为中心的开发实践的惯性,40%的预测代表了技术机会和实际采用约束的平衡观点。
竞争动态
随着云服务提供商的定制芯片重塑整个人工智能生态系统的竞争动态,人工智能芯片市场正在迅速发展。传统GPU市场结构面临重大破坏,NVIDIA的主导地位可能会随着云服务提供商为越来越多的人工智能工作负载部署专有芯片解决方案而削弱。拥有定制芯片能力的云服务提供商正在追求不同的战略目标,Google的TPU主要关注内部工作负载,而AWS则更积极地推广其Trainium和Inferentia芯片作为面向客户的商业GPU替代品。半导体设计公司与云服务提供商合作进一步复杂化了竞争格局,Marvell Technology与Microsoft合作开发为顶级云服务提供商提供定制人工智能计算芯片,作为其"未来收入增长的关键驱动因素"。商业GPU供应商正在通过增强自己的产品来应对这一竞争威胁,NVIDIA为不同的人工智能工作负载类别开发越来越专业的解决方案,同时强调提高切换成本的软件生态系统优势。不断发展的市场结构表明正在出现一种"芯片多样性"方法,多种专业架构共存而非赢者通吃的结果,芯片制造商博通指出,"推理和训练芯片的架构有显著差异",为专业解决方案创造了空间。系统集成商和企业硬件供应商正在这个不断发展的生态系统中定位自己,如HPE开发混合产品,结合商业GPU和云服务提供商定制芯片选项,以满足多样化的客户需求。这种复杂的竞争格局将继续到2028年及以后,塑造人工智能计算市场的技术能力和经济结构。
底线
向云服务提供商定制芯片转变代表了人工智能计算格局的根本重新调整,将在2028年及以后重塑企业基础设施战略和供应商关系。首席信息官和人工智能领导者应该制定跨芯片架构保持灵活性的基础设施战略,认识到工作负载特定的性能特性将越来越决定最佳部署环境。拥有大量定制芯片投资的云服务提供商将在专业工作负载的成本结构和性能能力方面获得竞争优势,可能从缺乏同等能力的提供商那里抢占市场份额。随着云服务提供商垂直整合人工智能基础设施栈的关键组件,商业GPU供应商面临重大战略挑战,需要强调差异化能力和软件生态系统以保持相关性。企业客户在与云服务提供商谈判长期协议时应认识到这些不断变化的动态,确保灵活性以利用定制芯片优势,同时保持关键工作负载的可移植性。软件开发实践将必然发展以适应芯片多样性,越来越强调可以高效地针对多种底层架构的硬件抽象层和可移植人工智能框架。最终市场结构仍不确定,预计定制芯片40%的渗透率代表了平衡的观点,既认识到专业化的令人信服的技术和经济优势,又承认现有以GPU为中心的开发实践和生态系统优势的实质性惯性。发展芯片感知人工智能战略的组织将最有能力利用这一市场演变创造的机会,同时管理相关的转型风险。