计算机制造商将推出总共50台配备英伟达A100图形处理单元(GPU)的服务器,以支持AI、数据科学和科学计算应用。英伟达表示,A100是首款基于英伟达Ampere架构的GPU,这是该公司迄今为止GPU性能的最大飞跃,具有根据需要将一个GPU划分为七个独立GPU的功能。该公司在ISC高性能计算高性能在线活动之前宣布了这一消息。英伟达表示,根据ISC的计算,英伟达现在拥有全球十大最快超级计算机中的八个。
A100 GPU于5月发布,拥有540亿个晶体管(开/关开关是所有电子产品的基础),搭载8个A100 GPU的服务器(如英伟达DGX A100)可以执行5pb flops的性能,比上一代芯片Volta高出约20倍。英伟达产品营销总监Paresh Kharya在新闻发布会上表示,这意味着成本2000万美元、22个机架的CPU服务器,可以换成成本300万美元、只有4个基于GPU的服务器机架的新服务器。
这些系统来自计算机制造商,如华硕、阿托斯、思科、戴尔、富士通、千兆字节、惠普企业、Inspur、联想、一站式系统、广达/QCT和超微。Kharya说,服务器的可用性各不相同,估计今年夏天将有30个系统,到今年年底将超过20个。
整合Mellanox
最新的机器包括Mellanox新的InfiniBand互连技术,英伟达在2019年以70亿美元收购了该技术。英伟达将Mellanox技术与A100集成,打造了塞勒涅,英伟达称之为世界十大超级计算机,也是世界上最节能的计算机之一。塞勒涅已经设计了不到一个月,可以提供超过1 exaflop的AI处理。卡里亚说,像塞勒涅这样的超级计算机将帮助英伟达进一步渗透到世界顶级超级计算机中。
Moor分析师卡尔弗罗伊德表示:“虽然A100 PCIe可以期待,A100在高性能计算方面的成就令人印象深刻,但内部的塞勒涅超级计算机构成了竞争的护城河,这将使竞争对手难以跨越。电子邮件中的观点和策略。
根据ISC的说法,去年,英伟达的图形处理单元(GPU)是世界500强中125台超级计算机的一部分。如果算上采用Mellanox InfiniBand技术的超级计算机,这个数字将超过300台,预计到2020年这个数字还会进一步增加。
Kharya说:“如果你看看500强,NVIDIA在超级计算领域如此成功,是因为科学计算发生了变化。“我们进入了一个新的时代,已经超越了传统的建模和仿真工作量,涵盖了AI、数据分析、边缘筛选和大数据可视化。”
Kharya说,Mellanox互联芯片为世界领先的天气预报超级计算机提供动力。天气和气候模型是计算和数据密集型的。预测质量取决于模型的复杂性和分辨率水平。超级计算机的性能取决于在不同计算机之间快速移动数据的互连技术。
英伟达高级副总裁Gilad Shainer在新闻发布会上表示:“一边是最好的计算,另一边是最好的网络,这令人兴奋。现在我们可以开始将这些技术结合起来,开始建造令人惊叹的东西。”
使用Mellanox的客户包括西班牙气象局、中国气象局、芬兰气象局、NASA和荷兰皇家气象局。
北京市气象局选择了200千兆HDR InfiniBand互联技术,加速其新的超级计算平台,将用于增强天气预报,改善气候和环境研究,满足2022年北京冬奥会的天气预报信息需求。
英伟达表示,它已经能够在短短14.5分钟内运行RAPIDS开源数据科学软件套件,打破了之前19.5倍的性能记录。(竞争对手的CPU系统在4.7小时内完成了同样的任务。)英伟达得益于其采用英伟达A100人工智能GPU芯片的全新英伟达DGX A100系统。基准测试中使用的16个英伟达DGX A100系统共有128个带有Mellanox互连的英伟达A100 GPU。公司还推出了Nvidia Mellanox UFM Cyber -AI平台,该平台利用基于AI的分析功能检测安全威胁和运营问题,从而最大限度地减少InfiniBand数据中心的停机时间。
UFM平台产品组合的拓展(InfiniBand系统管理近十年)应用AI学习数据中心的运营节奏和网络工作负载模式。它利用实时和历史遥测和工作负载数据。基于该基准,它可以跟踪系统的运行状态和网络修改,并检测性能问题。
新平台可以提供关于系统和应用程序异常行为、潜在系统故障和威胁的警报,并实施纠正措施。它还在试图进行系统黑客攻击(如加密货币挖掘)的情况下提供安全警报。根据ITIC 2020年报告,其结果是减少了数据中心的停机时间,通常每小时的成本超过30万美元。
Hyperion Research高级顾问史蒂夫康威(Steve Conway)在一封电子邮件中表示:“英伟达的快速创新令人印象深刻。我认为最值得注意的创新是将Tensor处理内核集成到GPU中。现在已经是第三代的Tensor core,解决了一些GPU核心处理不好的AI问题。这一点很重要,因为AI芯片初创公司开始使用Tensor处理器和其他旨在有效解决某些类型AI问题的技术来挑战Nvidia GPU。”
标签: