Nvidia训练出83亿参数世界最大语言模型,53分钟成功训练Bert

发布时间:2019-08-16 阅读量:660 来源: 智东西 发布人: Jane

据外媒报道,Nvidia今天宣布,它已经训练出了世界上最大的语言模型MegatronLM,该模型使用了83亿个参数,比Bert大24倍,比OpenAI的GPT-2大5倍。

 

Nvidia还宣布其打破了BERT模型的最快训练时间记录,通过使用优化的PyTorch软件和超过1,000个GPU的DGX-SuperPOD,Nvidia能够在53分钟内训练出行业标准的BERT模型。

 

除此之外,Nvidia还通过运行Tesla T4 GPU和针对数据中心推理优化的TensorRT 5.1,成功将BERT推理时间降至了2.2毫秒。

 

一、世界最大语言模型MegatronLM比Bert大24倍

 

Nvidia今天宣布,它已经训练出了世界上最大的语言模型MegatronLM,这是这家GPU制造商旨在推进会话式AI的一系列更新中的最新版本。

 

为了实现这一壮举,Nvidia利用模型并行性,用一种技术将神经网络分割成多个部分,创建出了MegatronLM模型,该模型使用了83亿个参数,比Bert大24倍,比OpenAI的GPT-2大5倍。

 

Nvidia同时还宣布打破了BERT的最快训练记录,通过使用优化的PyTorch软件和超过1,000个GPU的DGX-SuperPOD,Nvidia能够在53分钟内训练出行业标准的BERT模型。

 

Nvidia深度学习应用(applied deep learning)副总裁Bryan Catarazano在与记者和分析师的一次谈话中说:“如果没有这种技术,训练这些大型语言模型可能需要数周时间。”

 

Nvidia还表示它已经实现了最快的BERT推理时间,通过运行Tesla T4 GPU和针对数据中心推理优化的TensorRT 5.1,BERT推理时间能够降至2.2毫秒。

 

Bryan Catarazano表示,当用CPU进行推理时,BERT推理最多需要40毫秒,而许多会话式AI系统今天会在10毫秒内完成。


_zdx.png

 

▲MegatronLM代码已经在在GitHub上开源

 

Nvidia已经将MegatronLM代码在GitHub上开源,以帮助人工智能从业者和研究人员探索大型语言模型的创建,或使用GPU进行速度训练或推理。

 

二、53分钟训练BERT

 

2018年10月,谷歌正式推出了基于双向 Transformer 的大规模预训练语言模型“BERT”,并在短期内刷新了当时11 项 NLP 任务的最优性能记录。

 

BERT能高效抽取文本信息并应用于各种 NLP 任务,所以非常适合语言理解任务,如翻译,问答,情感分析和句子分类等。

 

Nvidia本次用带有92个DGX-2H节点的NVIDIA DGX SuperPOD在短短53分钟内就成功训练BERT-Large,这创造了新的记录。

 

为了实现这个新纪录,Nvidia用了1,472 个V100 SXM3-32GB 450W GPU和每个节点8个Mellanox Infiniband计算适配器以自动混合精度( Automatic Mixed Precision)运行PyTorch以加快处理数量和速度。

 

_zdx2.png


▲不同数量的GPU训练BERT-Large的时间

 

相比之下,对于只能访问单个节点的研究人员来说,使用16个V100的DGX-2服务器训练BERT-Large需要3天。

 

结语:MegatronLM模型促进NLP发展

 

让计算机理解人类语言及其所有细微差别并做出适当反应一直是AI研究人员追求的方向,但在现代AI技术的到来之前,建立具有真正NLP功能的系统是不可能的。

 

随着BERT和具有10亿多参数的GPT-2模型等大型语言模型的出现,我们看到了高难度语言理解任务实现的可能,而Nvidia本次发布的MegatronLM模型更是将NLP处理提高了一个台阶。

 

更重要的是,新的模型可能会减少像亚马逊Alexa、Google Assistant和百度Duer这样的语音助手交互延迟时间,这对于语音交互实际的发展有非常大的推动作用。

 

文章来源:Venturebeat、Nvidia


相关资讯
2025年5月日本半导体设备销售额创历史次高,AI需求驱动连续17个月增长

日本半导体制造设备协会(SEAJ)于2025年6月24日正式发布其最新统计报告,详细介绍了2025年5月及1-5月日本半导体制造设备的销售表现。这些数据反映了全球半导体产业链的强劲需求,为行业提供了关键的市场洞察。整体来看,日本制造设备销售额持续展现出卓越的增长态势,多项指标刷新历史纪录,凸显了日本在该领域的核心竞争力和市场主导地位。

龙芯3C6000 vs 英特尔第三代至强:国产算力破局之战

全球数据中心处理器市场长期被x86架构垄断,国产处理器面临指令集授权与生态建设的双重壁垒。2025年6月,龙芯中科发布基于100%自研指令集(LoongArch)的3C6000系列服务器处理器,首次在核心性能参数上对标英特尔2021年推出的第三代至强可扩展处理器,标志着国产高端芯片实现从技术攻关到市场应用的跨越式突破。

2025全球车载无线充电普及率破56%,中国增速24%领跑新兴市场

2024年全球车载无线充电系统销量同比增长14%,普及率首次突破50%大关,达53%;2025年Q1进一步攀升至56%。美国以87%的普及率领跑,韩国及北美市场紧随其后。中国欧洲和拉丁美洲需求强劲,其中中国销量同比激增24%,显著拉动全球增长。

汽车底盘传感器技术突破:英飞凌TLE4802实现无屏蔽高抗扰

全球半导体技术巨头英飞凌科技股份公司(FSE:IFX / OTCQX:IFNNY)始终致力于推动汽车电子领域的创新。随着新能源汽车和智能网联汽车的快速发展,底盘系统的安全性、精度和可靠性成为核心挑战。例如,电动助力转向和悬挂系统亟需更高性能的传感方案。在此背景下,英飞凌近期推出的新一代电感式传感器产品线正式亮相,旨在为汽车底盘应用提供颠覆性解决方案。这不仅标志着公司在前沿电子组件的深度布局,更呼应了行业对高可靠性传感技术的迫切需求。

英伟达Q1营收440亿:Blackwell引爆AI算力,自动驾驶增长72%

2025年Q1,英伟达营收达440亿美元(同比+69%),数据中心业务贡献390亿美元(同比+73%),占收入比近90%。Blackwell架构芯片创下公司史上最快增速,推动计算收入增长73%。汽车与机器人部门收入5.67亿美元(同比+72%),自动驾驶技术成为核心驱动力。尽管受美国对华H20芯片出口管制影响(损失45亿美元库存),英伟达仍维持增长韧性,市值一度突破3.75万亿美元,登顶全球上市公司。