英伟达这个芯片,依然难逢敌手

发布时间:2022-07-6 阅读量:748 来源: 我爱方案网整理 发布人: Aurora

1657099545694915.jpg

 

随着机器学习越来越多地进入社会的每一个角落,相应的训练任务也成为了云端数据中心最关键的运算负载之一,同时这也推动了半导体相关芯片市场的蓬勃发展。在云端训练芯片领域,虽然一直有不同的挑战者,但是Nvidia一直保持着龙头的位置。从2012年深度学习复兴,依靠Nvidia GPUCUDA生态成功克服训练效率难题并成功掀起这一代人工智能潮流之后,NvidiaGPU一直是训练市场的首选芯片。    

 

上周MLperf公布的最新训练榜单也再次印证了Nvidia的稳固地位。MLPerf是由机器学习业界的行业组织ML Commons牵头做的标准榜单,其中训练榜单的具体测评方法是ML Commons提供一些业界最流行的机器学习模型的训练任务,而不同的机构会自行去使用不同的处理器和AI加速芯片配合相应的软件框架去搭建系统执行这些训练任务,并且将结果提交到MLPerf来汇总和公布。每过一段时间,该榜单都会更新一次以包括新的芯片以及新的训练任务。在最新的629日公布的MLPerf训练2.0版本的结果中,Nvidia的领先地位可以从榜单中的两个地方看出:    

 

首先是使用Nvidia GPU提交结果的数量。在这次MLPerf的最新训练榜单中,绝大多数(90%以上)机构提交的训练结果都是基于NvidiaGPU做训练加速,而如果再仔细看结果,会发现NvidiaGPU是和不同的机器学习训练框架兼容性最好的。例如,GoogleIntelGraphCore都上传了使用非Nvidia GPU的结果(Google使用TPU v4Intel使用Habana Gaudi芯片,而Graphcore使用Bow IPU),但是这些竞争芯片对于深度学习框架支持的广度都不及Nvidia——基本上所有深度学习框架都会支持NvidiaGPU,但是支持其他芯片的深度学习框架种类则有限。这也从一个角度说明了Nvidia在生态上的领先。    

 

其次是性能上的比较。值得注意的是,本次绝大多数机构提交的基于Nvidia GPU的结果都是基于Nvidia A100 GPU,换句话说这已经是两年前的芯片的结果了(Nvidia官方宣布基于下一代GPU H100的结果将会在下一次MLPerf榜单更新时提交),但是其结果仍然很有竞争力,相较于其他更新的芯片的结果并不遑多让。例如,相比最新的Google TPUv4,在大规模语言模型预训练(BERT)任务上,同样使用4096张加速卡TPU v4需要的时间是0.179分钟,而Nvidia A100需要的时间是0.206分钟,相差并不大。相比Intel Habana Gaudi2,同样使用8张加速卡Nvidia A100 BERT训练结果是17.624分钟,而Habana Gaudi2需要的时间是17.209分钟。相比Graphcore Bow IPU,在BERT任务上128A100的训练时间是2.655分钟,而Bow IPU需要4.415分钟。在一些物体识别任务中,Habana Gaudi2的性能确实强于A100,但是这样的优势在Nvidia H100发布后是否还能保持还有很大的不确定性。

   

Nvidia的软硬件生态是关键护城河    

 

如前所述,Nvidia目前仍然在机器学习训练市场可以说是独孤求败,并没有受到强大的挑战。我们认为,这得益于Nvidia在芯片和软件方面的全面能力,而这从另一个角度又与人工智能芯片发展的规律相得益彰。    

 

首先,人工智能的发展规律中,人工智能模型始终和相关的加速硬件一起发展,也正因为这个原因,有能力掌握软硬件协同设计的公司将会有巨大的优势。即使单从芯片设计的角度来看,人工智能加速芯片中的架构设计也是极其重要,从性能提升角度比芯片的半导体工艺要更重要。    

 

纵观MLPerf公布的榜单,从第一个榜单公布到现在的时间周期内,摩尔定律主导的芯片性能(时钟频率)提升约为四倍,但是芯片对机器学习任务的处理能力却增强了四十倍,由此可见芯片架构以及软硬件协同设计恰恰是人工智能加速芯片的核心要素,而半导体工艺提升只是一个辅助因素。在这个领域,Nvidia确实具有巨大的优势,因为Nvidia在拥有强大的芯片架构设计团队来为人工智能模型设计芯片架构的同时,也拥有很强的软件团队来优化在芯片上的人工智能模型运行效率,两者相结合确实威力无穷。    

 

纵观Nvidia针对机器学习的GPU设计,其软硬件协同设计的思路可以说是一以贯之;在深度学习还未成为主流的时候,Nvidia就相当具有前瞻性地大力投入CUDA通用计算(包括软件架构以及相应的芯片架构支持)GPU在曾经CPU一统天下高性能计算领域的打出一片天,而在深度学习成为主流之后,Nvidia的做法并非一味暴力增强算力,而是通过有针对性地优化来以最佳的效率提升性能,其中的例子包括支持混合精度训练和推理,对于INT8的大力支持,在GPU中加入Tensor Core来提升卷积计算能力,以及最新的在H100 GPU中加入Transformer Engine来提升相关模型的性能。这些投入都包括了软件和芯片架构上的协同设计,而同时也收到了很好的回报,使得Nvidia能使用最小的代价(芯片面积,功耗)来保持性能的领先。    

 

时至今日,Nvidia的GPU架构已经能在通用性(即对于各种模型算子的支持)和效率(即对于重要模型算子的运行效率)上获得了很好的平衡,因此即使在“GPU架构并不是最适合机器学习模型加速”的观点盛行多年后,NvidiaGPU仍然是机器学习训练市场的最优选择——因为其他的加速芯片对于某些算子做专用优化之后往往通用性无法顾及,而通用型的加速芯片则很难与拥有巨大系统团队支持的Nvidia设计的GPU性能相抗衡。    

 

在性能领先之外,Nvidia在软件生态上也拥有很高的护城河。如前所述,Nvidia的芯片架构能够在通用性和效率之间实现一个很好的平衡,而在这个基础上,一套易用且能充分调动芯片架构潜力的软件生态则会让Nvidia在机器学习模型社区拥有巨大的影响力——这使得模型设计者在设计模型时将会自发针对NvidiaGPU做模型优化,从而更进一步提高Nvidia的竞争力。Nvidia拥有CUDA这样成熟而性能良好的底层软件架构,因此目前几乎所有的深度学习训练和推理框架都把对于Nvidia GPU的支持和优化作为必备的目标,相比较而言对于其他竞争芯片来说,软件生态方面的支持就少得多了(例如对于Google TPU的主要生态支持来自Google自己的TensorFlow,然而TensorFlow目前在人工智能社区使用人数正在慢慢落后于Pytorch,这也成为TPU在生态上的一个瓶颈),这也成为了Nvidia GPU的一大护城河。


相关资讯
英伟达RTX 5090 DD中国特供版规格曝光:核心配置保留,显存降级引关注

据多方可靠消息源(包括知名爆料人Kopite7kimi和MEGAsizeGPU)持续披露,为应对特定市场出口合规要求,英伟达(NVIDIA)正为其下一代旗舰显卡GeForce RTX 5090系列开发专供中国市场的型号,命名为GeForce RTX 5090 DD,旨在取代之前计划的RTX 5090 D型号。最新信息揭示了该型号相较于全球版的主要规格调整与市场定位策略。

新能源车核心器件对比:东芝/纳芯微/川土微隔离器选型策略

随着新能源汽车智能化程度提升,2025年车载电子系统对信号隔离器件提出更严苛要求。在电机控制、BMS等高压场景中,数字隔离器需同时解决安全隔离、抗噪能力及实时通信三大核心需求。东芝电子最新推出的DCM32xx00系列双通道数字隔离器,正是针对这些技术痛点开发的标杆级解决方案。

智能边缘芯动力:嵌入式AI解锁工业、穿戴、车载新场景

当技术创新从实验室迈向市场,“最后一公里”的精准对接成为破局关键。今日,由博闻创意会展打造的华南电子产业旗舰盛会——elexcon深圳国际电子展暨嵌入式展(2025.8.26-28) 全球预约通道正式开启!作为华南唯一覆盖电子全产业链的标杆平台,展会依托深圳雄厚的产业集群禀赋,深度打通电子与嵌入式技术双动脉。在这里,400+前沿技术展商将与30,000+全球专业买家、工程师、决策者零距离互动,共同探索AI智能化与绿色双碳大潮下的技术路线与商业前景。深圳高效的产业链,正通过elexcon这座桥梁,迸发出强大的产业对接动能,加速国产技术融入全球价值链。

中国机器人市场迎爆发期:四年内规模将破千亿,人形机器人成新引擎​

摩根士丹利(Morgan Stanley,简称“大摩”)最新发布的研究报告描绘了中国机器人产业极具活力的增长前景。报告核心结论指出,中国机器人市场正经历前所未有的高速扩张,预计在未来四年内,其整体市场规模将实现翻倍增长,从2024年的约470亿美元跃升至2028年的1080亿美元,年均复合增长率高达23%。这一强劲增势将无可争议地巩固中国在全球机器人领域的绝对领先地位。数据显示,2024年中国已占据全球机器人市场约40%的份额。

2025高端电视市场激增44%,中国双雄蚕食三星份额

全球高端电视市场格局正经历深刻变革。Counterpoint Research最新报告显示,2025年第一季度全球高端电视出货量同比大幅攀升44%,行业收入同步增长35%。中国品牌展现了强大竞争力,特别是TCL和海信表现亮眼,两大品牌出货量均实现三位数同比增长,引领全球市场进入发展新阶段。