Nvidia的HGX-2为GPU计算服务器虚拟化技术带来灵活性

 虚拟服务器     |      2019-09-23 09:36:10

  GPU市场领导者Nvidia每年在全球举行几次GPU技术会议(GTC)。似乎每场演出都有某种重要的宣布,该公司正在推动GPU计算的极限并为客户提供更多选择。例如,在圣何塞GTC上,该公司宣布了其NVSwitch架构,该架构可在单个结构上连接多达16个GPU,从而创建了一个大型的虚拟GPU。本周在台湾GTC,它宣布了其HGX-2服务器平台,该平台是使其他服务器虚拟化制造商能够构建自己的系统的参考体系结构。在圣何塞GTC上宣布的DGX-2服务器基于HGX-2架构。 

  Network World的Marc Ferranti很好地完成了本文的公告细节, 包括将使用参考体系结构构建自己的产品的服务器合作伙伴。我想更深入地了解HGX-2的重要性及其带来的好处。 

  HGX-2从NVSwitch获得强大动力 

  Ferranti在他的帖子中提到HGX-2利用了NVSwitch互连结构。NVSwitch是GPU计算的重大飞跃,如果没有它,Nvidia的速度将无法实现。与PCI总线速度一样快,它们太慢而无法提供多个GPU。通过创建单个虚拟GPU,HGX-2在单个服务器中提供2 petaflops。 

  服务器合作伙伴可以使用HGX-2基础灵活地进行平台设计 

  同样,对于AI和HPC,架构在数据中心之间也会有所不同。HGX-2是使服务器虚拟化生态系统合作伙伴能够构建可满足其客户独特需求的完整服务器平台的基础。例如,一些超大规模客户更喜欢在服务器背面安装PCIe和网络电缆,而另一些则更喜欢在正面。可以通过机架的电源母线或使用每台服务器中的单独电源来完成服务器服务器虚拟化的供电方式。Nvidia采取的方法可以使其发挥最大的作用,并在GPU子系统中提供市场领先的性能,同时使服务器制造商可以专注于系统级设计,电源,散热和机械方面。  

  下图显示了Nvidia用于高性能AI和HPC工作负载的服务器架构。

 

  

  通过这种设计,CPU主机节点和GPU服务器平台使用PCIe电缆连接。这样一来,GPU和CPU可以以不同的速度运行,并以自己的速度刷新。分解的架构允许CPU和GPU独立升级。另一个值得一提的好处是,四个PCIe x16连接提供了足够的带宽来连续供给GPU。我已经与许多数据科学家进行过交谈,他们告诉我机器学习的最大问题之一,而AI不能足够快地提供GPU来保持它们正常工作。

  HGX-2对于HPC工作负载也很有用,可提供最大的灵活性

  HGX-2的另一个有趣元素是它既可以用于HPC工作负载也可以用于AI。该平台随附FP64和FP32(计算精度的度量),用于科学计算,建模和仿真,同时还支持用于AI的FP16和INT8训练和推理。通常,这需要在多个平台上进行投资,从而导致成本上升。在单一平台上同时执行这两项功能的能力意味着更大的灵活性和更低的AI计划入门成本。 

  英伟达目前在该行业起着重要作用

  Ferranti在其文章的结尾发表了评论,称英伟达在市场上的领先地位注定要面临越来越多的完成,并提到英特尔和Xylinx是可​​能的竞争对手。从逻辑上讲,Nvidia将会看到更多竞争,并且有可能发生,但这是有道理的,但它不太可能来自其现有竞争对手。今天使Nvidia独树一帜的不是GPU。它们显然非常好,但是它是整个堆栈,从芯片到软件再到硬件平台和开发人员生态系统。其他GPU制造商都没有一个生态系统和堆栈甚至与Nvidia接近。当PC行业蓬勃发展时,人们对Intel也有同样的想法,数十年来,另一家供应商挑战了Intel。我相信Nvidia将有类似的十年发展历程,它在AI计算方面的重要性与Intel在PC计算方面的重要性一样。