发布时间:2019-08-16 阅读量:629 来源: 智东西 发布人: Jane
据外媒报道,Nvidia今天宣布,它已经训练出了世界上最大的语言模型MegatronLM,该模型使用了83亿个参数,比Bert大24倍,比OpenAI的GPT-2大5倍。
Nvidia还宣布其打破了BERT模型的最快训练时间记录,通过使用优化的PyTorch软件和超过1,000个GPU的DGX-SuperPOD,Nvidia能够在53分钟内训练出行业标准的BERT模型。
除此之外,Nvidia还通过运行Tesla T4 GPU和针对数据中心推理优化的TensorRT 5.1,成功将BERT推理时间降至了2.2毫秒。
一、世界最大语言模型MegatronLM比Bert大24倍
Nvidia今天宣布,它已经训练出了世界上最大的语言模型MegatronLM,这是这家GPU制造商旨在推进会话式AI的一系列更新中的最新版本。、
为了实现这一壮举,Nvidia利用模型并行性,用一种技术将神经网络分割成多个部分,创建出了MegatronLM模型,该模型使用了83亿个参数,比Bert大24倍,比OpenAI的GPT-2大5倍。
Nvidia同时还宣布打破了BERT的最快训练记录,通过使用优化的PyTorch软件和超过1,000个GPU的DGX-SuperPOD,Nvidia能够在53分钟内训练出行业标准的BERT模型。
Nvidia深度学习应用(applied deep learning)副总裁Bryan Catarazano在与记者和分析师的一次谈话中说:“如果没有这种技术,训练这些大型语言模型可能需要数周时间。”
Nvidia还表示它已经实现了最快的BERT推理时间,通过运行Tesla T4 GPU和针对数据中心推理优化的TensorRT 5.1,BERT推理时间能够降至2.2毫秒。
Bryan Catarazano表示,当用CPU进行推理时,BERT推理最多需要40毫秒,而许多会话式AI系统今天会在10毫秒内完成。
▲MegatronLM代码已经在在GitHub上开源
Nvidia已经将MegatronLM代码在GitHub上开源,以帮助人工智能从业者和研究人员探索大型语言模型的创建,或使用GPU进行速度训练或推理。
二、53分钟训练BERT
2018年10月,谷歌正式推出了基于双向 Transformer 的大规模预训练语言模型“BERT”,并在短期内刷新了当时11 项 NLP 任务的最优性能记录。
BERT能高效抽取文本信息并应用于各种 NLP 任务,所以非常适合语言理解任务,如翻译,问答,情感分析和句子分类等。
Nvidia本次用带有92个DGX-2H节点的NVIDIA DGX SuperPOD在短短53分钟内就成功训练BERT-Large,这创造了新的记录。
为了实现这个新纪录,Nvidia用了1,472 个V100 SXM3-32GB 450W GPU和每个节点8个Mellanox Infiniband计算适配器以自动混合精度( Automatic Mixed Precision)运行PyTorch以加快处理数量和速度。
▲不同数量的GPU训练BERT-Large的时间
相比之下,对于只能访问单个节点的研究人员来说,使用16个V100的DGX-2服务器训练BERT-Large需要3天。
结语:MegatronLM模型促进NLP发展
让计算机理解人类语言及其所有细微差别并做出适当反应一直是AI研究人员追求的方向,但在现代AI技术的到来之前,建立具有真正NLP功能的系统是不可能的。
随着BERT和具有10亿多参数的GPT-2模型等大型语言模型的出现,我们看到了高难度语言理解任务实现的可能,而Nvidia本次发布的MegatronLM模型更是将NLP处理提高了一个台阶。
更重要的是,新的模型可能会减少像亚马逊Alexa、Google Assistant和百度Duer这样的语音助手交互延迟时间,这对于语音交互实际的发展有非常大的推动作用。
文章来源:Venturebeat、Nvidia
在万物互联与智能化浪潮席卷全球的今天,新唐科技以颠覆性创新奏响行业强音。4月25日,这场历时10天、横跨七城的科技盛宴在深圳迎来高潮,以"创新驱动AI、新能源与车用科技"为主题,汇聚全球顶尖行业领袖,首次公开七大核心产品矩阵,展现从芯片设计到智能生态的全链条创新能力,为半导体产业转型升级注入新动能。
在2025年北美技术研讨会上,台积电正式宣布其A14(1.4nm)工艺将于2028年量产,并明确表示无需依赖ASML最新一代High NA EUV光刻机。这一决策背后,折射出全球半导体巨头在技术路线、成本控制和市场竞争中的深层博弈。
随着AIoT技术的快速落地,智能设备对高性能、低功耗嵌入式硬件的需求持续攀升。华北工控推出的EMB-3128嵌入式主板,搭载Intel® Alder Lake-N系列及Core™ i3-N305处理器,以高能效比设计、工业级可靠性及丰富的接口配置,成为轻量级边缘AI计算的理想选择。该主板支持DDR5内存、多模态扩展接口及宽温运行环境,可广泛应用于智能家居、工业自动化、智慧零售等场景,助力产业智能化升级。
作为全球半导体沉积设备领域的龙头企业,荷兰ASM国际(ASMI)近日发布2024年第一季度财报,展现强劲增长动能。财报显示,公司当季新增订单额达8.34亿欧元(按固定汇率计算),同比增长14%,显著超出市场预期的8.08亿欧元。这一表现主要受益于人工智能芯片制造设备需求激增与中国市场的战略性突破,同时反映出半导体产业技术迭代与地缘经济博弈的双重影响。
随着汽车智能化加速,车载摄像头、激光雷达、显示屏等传感器数量激增,数据传输带宽需求呈指数级增长。传统国际厂商基于私有协议(如TI的FPD-Link、ADI的GMSL)垄断车载SerDes市场,导致车企供应链弹性不足、成本高企。2025年4月,纳芯微电子发布基于HSMT公有协议的全链路国产化SerDes芯片组(NLS9116加串器与NLS9246解串器),通过协议解耦、性能优化与供应链自主可控,为ADAS、智能座舱等场景提供高性价比解决方案,标志着国产车规级芯片从“跟跑”迈向“并跑” 。