电脑制造商推出50款配备英伟达A100 GPU的AI服务器

发布时间：2020-06-29 14:09:11 【来源：】

计算机制造商将推出总共50台配备Nvidia A100图形处理单元(GPU)的服务器，以支持AI，数据科学和科学计算应用程序。Nvidia表示，A100是第一款基于Nvidia Ampere架构的GPU，是该公司迄今为止GPU性能上的最大飞跃，具有将一个GPU根据需要划分为七个独立GPU的功能。该公司在专门针对高性能计算的ISC高性能在线活动之前宣布了这一消息。英伟达表示，根据ISC的评估，英伟达现在拥有全球十大最快的超级计算机中的八台。

A100 GPU于5月发布，具有540亿个晶体管(通断开关是构成所有电子产品的基础)，并且具有8个A100 GPU的服务器(如Nvidia DGX A100)可以执行5 petaflops的性能，大约是20倍超过了上一代芯片Volta。Nvidia产品营销总监Paresh Kharya在新闻发布会上表示，这意味着成本为2000万美元并占用22个机架的中央处理器(CPU)服务器可以由成本为300万美元并仅占用四个基于GPU的服务器机架的新服务器取代。

这些系统来自华硕，Atos，思科，戴尔，富士通，技嘉，惠普企业，浪潮，联想，One Stop Systems，Quanta / QCT和Supermicro等计算机制造商。Kharya说，服务器的可用性各不相同，预计今年夏天将有30个系统，到今年年底将有20个以上。

整合Mellanox

最新的机器包括Mellanox的新InfiniBand互连技术，Nvidia于2019年以70亿美元的价格收购了该技术。Nvidia将Mellanox技术与A100集成在一起创建了Selene，Nvidia称其为全球十大超级计算机和世界上最节能的计算机之一。Selene的设计不到一个月，可提供超过1 exaflop的AI处理。Kharya说，像Selene这样的超级计算机将帮助Nvidia进一步渗透到世界顶级超级计算机。

Moor分析师Karl Freund表示：“虽然可以预料到A100 PCIe，并且A100在高性能计算方面的成就令人印象深刻，但内部的Selene超级计算机却构成了竞争的护城河，这将使竞争对手难以跨越。见解和策略，在电子邮件中。

据ISC称，去年，英伟达的图形处理单元(GPU)是全球前500强超级计算机中的125台的一部分。如果算上采用Mellanox InfiniBand技术的超级计算机，那么这个数字将超过300，预计到2020年，这个数字将进一步增加。

“如果您查看前500名，英伟达之所以能够在超级计算领域如此成功，是因为科学计算已经发生了变化，” Kharya说。“我们已经进入了一个新时代，这个时代已经超越了传统的建模和仿真工作量，已经涵盖了AI，数据分析，边缘筛选和大数据可视化。”

Kharya说，Mellanox互连芯片为世界领先的天气预报超级计算机提供动力。天气和气候模型都是计算和数据密集型的。预测质量取决于模型的复杂性和分辨率级别。超级计算机的性能取决于互连技术，以在不同计算机之间快速移动数据。

Nvidia高级副总裁吉拉德·谢纳尔(Gilad Shainer)在新闻发布会上说：“在一侧拥有最好的计算，在另一侧拥有最好的网络是令人兴奋的，现在我们可以开始将这些技术结合在一起并开始构建令人惊奇的东西。”

使用Mellanox的客户包括西班牙气象局，中国气象局，芬兰气象局，NASA和荷兰皇家气象局。

北京气象局已选择200吉比特HDR InfiniBand互连技术来加速其新的超级计算平台，该平台将用于增强天气预报，改善气候和环境研究，并满足2022年北京冬季奥运会的天气预报信息需求。

英伟达表示，它已经能够在14.5分钟内运行RAPIDS开源数据科学软件套件，从而使以前的性能记录打破了19.5倍。(竞争对手的CPU系统在4.7个小时内完成了相同的任务。)Nvidia得益于其使用Nvidia A100人工智能GPU芯片的新型Nvidia DGX A100系统。基准测试中使用的16个Nvidia DGX A100系统总共具有128个带有Mellanox互连的Nvidia A100 GPU。该公司还推出了Nvidia Mellanox UFM Cyber-AI平台，该平台通过利用基于AI的分析功能来检测安全威胁和运营问题，从而最大限度地减少了InfiniBand数据中心的停机时间。

UFM平台产品组合的扩展(已管理InfiniBand系统近十年了)应用AI来学习数据中心的操作节奏和网络工作负载模式。它利用实时和历史遥测以及工作负载数据。以此基准为基准，它可以跟踪系统的运行状况和网络修改，并检测性能问题。

新平台可提供有关系统和应用程序异常行为以及潜在的系统故障和威胁的警报，以及执行纠正措施。它还会在尝试进行系统黑客入侵(例如加密货币挖掘)的情况下提供安全警报。根据ITIC 2020报告，结果是减少了数据中心的停机时间—通常每小时的成本超过300,000美元。

Hyperion Research的高级顾问Steve Conway在一封电子邮件中说：“ Nvidia的快速创新令人印象深刻。我认为最值得注意的创新是将Tensor处理内核集成到GPU中。现在已经是第三代的Tensor核心解决了一些GPU核心无法很好处理的AI问题。这很重要，因为AI芯片初创企业开始使用Tensor处理器和其他旨在有效解决某些类型AI问题的技术来挑战Nvidia GPU。”

上一篇：富士Instax Mini 11现在可以购买价格为5,999卢比
下一篇：三星首次推出基于无人机的AI系统以远程调节5G塔