Nvidia旨在统一HGX-2国外高防服务器平台中的AI,HPC计算

 高防服务器     |      2019-09-23 09:54:48

 Nvidia正在通过新国外高防服务器平台HGX-2完善其在数据中心性能和效率方面的优势,该平台旨在利用16个Tesla V100 Tensor Core GPU的功能来满足AI和高性能计算(HPC)工作负载的需求。

  数据中心服务器制造商联想,Supermicro,Wiwynn和QCT表示,他们将在今年年底之前交付HGX-2系统。HGX-2系统的一些最大客户可能是超大规模提供商,因此,富士康,英业达,广达和纬创资信也有望生产将新平台用于云数据中心的服务器也就不足为奇了。

  HGX-2使用两个GPU底板构建而成,这些底板通过NVSwitch互连结构链接特斯拉GPU。HGX-2底板每个可处理8个处理器,总共16个GPU。一年前发布的HGX-1仅处理8个GPU。

  Nvidia将HGX-2描述为一个“构建块”,服务器制造商可以围绕HGX-2构建可以调整为不同任务的系统。它与Nvidia自己即将推出的DGX-2所基于的系统平台相同。这里的新闻是,该公司将向服务器制造商提供该平台以及参考架构,以便系统可以在今年年底前上市。

  Nvidia首席执行官黄仁勋在周三在台湾举行的该公司GPU技术大会上宣布了这一消息。

  NVIDIA hgx 2Nvidia公司

  Nvidia的HGX-2国外高防服务器平台是一个构建块,制造商可以围绕该构建块组装针对不同AI和高性能计算需求而调整的系统。

  Nvidia两个月前在其技术会议的San Jose迭代中表示,预计将成为首批发布的基于HGX-2的系统DGX-2将能够提供两个千万亿次运算能力-性能通常与数百台群集服务器。DGX-2系统的起价为399,000美元。

  Nvidia表示,HGX-2测试系统在ResNet-50培训基准上已达到创纪录的AI培训速度,每秒15,500张图像,并可替换多达300台仅CPU的服务器,这些服务器总共将花费数百万美元。

  GPU已在训练数据集中找到了一个利基市场-实质上是为机器学习应用程序创建神经网络模型。GPU的大规模并行架构使其特别适合于AI培训。

  HGX-2的卖点是它可以配置用于AI训练和推理:实际上是在现实生活中使用神经网络。HGX-2还针对HPC应用程序进行科学计算,图像和视频渲染以及模拟。

  “我们相信计算的未来需要一个统一的平台,” Nvidia的AI和加速计算部门产品市场经理Paresh Kharya说。“ HGX-2真正真正的独特之处在于它的多精度计算功能。”

  Kharya说,该平台允许使用高达FP64(64位或双精度浮点算术)进行科学计算和仿真的高精度计算,同时还提供FP16(16位或半精度浮点算术)和Int8 (8位整数算术)用于AI工作负载。

  Nvidia表示,每个HGX-2基板上都有六个NVSwitch交换机,它们是具有18个端口的完全无阻塞的交换机,因此每个端口都可以全NVLink速度与任何其他端口进行通信。NVlink是Nvidia自己的互连技术,该技术已获得IBM的许可。

  hgx 2拓扑Nvidia公司

  Nvidia基于HGX-2 GPU的系统的拓扑结构允许所有16个V100 Tensor Core GPU同时完全连接。

  每个HGX-2平台中的两个基板通过48个NVLink端口进行通信。Nvidia表示,该拓扑结构使所有16个GPU(每个基板上有8个)以每秒300GB的完全NVLink速度同时与任何其他GPU通信。

  Kharya说:“我们正在用这个系统打破许多经典的界限。” “我们正在限制单个系统可以以10千瓦的功率运行的极限。”

  Nvidia还宣布将提供八类GPU加速的国外高防服务器平台,每种服务器平台都使用双至强处理器来处理CPU,但具有不同的GPU内核数,并针对各种AI和HPC需求进行了不同的配置。在高端方面,Nvidia的HGX-T2基于HGX-2,具有16个Tesla V100 GPU,并进行了优化,可用于训练巨型的多层机器学习神经网络。在低端,英伟达提供SCX-E1,带有两个采用PCIE互连技术的Tesla V100 GPU。该系统的功耗为1200瓦,旨在用于入门级HPC计算。

  在Nvidia术语中,HGX-T系统用于AI培训,HGX-I系统用于AI推理,SCX系统用于HPC和科学计算。

  英伟达在针对AI工作负载的GPU市场上一直牢牢掌控,但注定会面临日益激烈的竞争。英特尔于2016年收购了深度学习创业公司Nervana Systems,现在正在完成所谓的英特尔Nervana神经网络处理器(NNP)的工作。此外,诸如Xylinx之类的FPGA制造商正在提供功能更强大的FPGA(现场可编程门阵列),这些FPGA已被抢购用于AI推理。

  尽管FPGA缺乏与GPU进行AI培训竞争的强大性能,但一旦将其构建,就可以对其进行编程以处理神经网络的各个级别,而对神经网络的最低​​精度要求适用于该层-推理的灵活性。