机器学习能否拯救国外服务器租用业务?

 服务器租用     |      2019-09-27 09:49:54

  Nvidia和国外服务器租用制造商Dell EMC,HPE,IBM和Supermicro宣布采用Nvidia的Tesla V100 GPU的企业服务器。问题是,随着公司转向PaaS,IaaS和云服务,为机器学习而设计的服务器能否阻止企业服务器购买的减少?最近针对物联网的强化工业服务器的推出可能表明服务器制造商正在寻求垂直市场的增长。

  将企业工作负载转移到Amazon,Google,IBM和其他托管基础架构的理由非常令人信服。点播资源的可伸缩性,云规模的运营效率和安全性只是众多原因中的三个。例如,谷歌有90名工程师从事安全工作,而大多数企业人手不足。

  上个季度,除戴尔以外,所有企业服务器公司的收入均下降。服务器业务正在增长,但不在企业领域。云公司没有从他们那里购买太多东西。相反,他们购买了符合其规格的组件,并构建了针对其庞大的24X7工作负载而优化的基础架构。竞争对手– Google,Facebook,IBM和其他云公司– 通过Facebook建立的Open Compute Project进行工程设计并指定新的硬件组件。云计算公司正直接从服务器制造商的供应链中购买。前几个季度的下降表明,这是一个难以逆转的长期趋势。

  服务器收入IDCIDC

  企业机器学习市场仍然很年轻,但是这些国外服务器租用将带来很高的利润。提供具有针对企业创新者的机器学习工作负载进行了优化的GPU的强大服务器将是有利可图的。随着行业的成熟,提早进入市场对于获得市场份额很重要。

  英伟达摘自英特尔公司的手册

  Nvidia是机器学习和AI的英特尔。凭借其Volta架构,它紧随英特尔的手册之后。英特尔通过制定与其他评论制造者(例如内存和硬盘驱动器)交互的开放标准,并发布参考规范来指导系统制造者(如戴尔,联想和许多较小的制造商)设计优化的系统,从而赢得了PC和服务器平台的主导地位有关PC和服务器用例的价格和性能。

  看看Volta Architecture白皮书,这正是Nvidia的方法,但使用案例却不同:神经网络。神经网络应用计算资源来解决矩阵非常大的机器学习线性代数问题,反复进行统计上准确的决策。神经网络的计算量很大,因为它们需要多次更新数百万个参数,以最大程度地减少误差并生成准确的模型。这些更新基本上是大型矩阵乘法运算。

  尽管有许多不同类型的机器学习和AI,但大多数应用机器学习都是受监督的。监督是指使用标记的数据集训练机器学习模型,例如,大型句子的语料库并将其翻译成另一种语言,然后将其输入到神经网络中进行训练,或者创建将一种语言翻译成另一种语言的模型。在模型达到所需的准确性水平之后,可以将模型部署为根据准确性的统计概率进行推断的推断模型。在非常大的数据集上训练神经网络的唯一方法是给它们很多时间,或者给它们许多并行运行的GPU和许多共享内存。

  机器学习是一门经验科学。工程师需要花费很多迭代来学习如何训练神经网络来理解新的用例。即使是最有经验的机器学习专家也无法确定要训练模型是否需要5值或5,000值的向量。这意味着需要进行大量的实验来为新的用例创建模型,然后进行优化以使计算预算与ROI匹配。

  Snap Chat的侯赛因·梅汉纳(Hussein Mehanna)曾告诉我,当他领导Facebook的核心机器学习团队时,“漫长的训练时间会杀死一名工程师”,这意味着必须等待训练完成,有时还要持续数周。将会中断解决关键问题的进度,并使试图解决该问题的工程师感到沮丧。

  当今运行的大多数机器学习模型都是从学术界开始的,例如自然语言或图像识别,然后由Google,Facebook,IBM和Microsoft的人员齐备的大型研究和工程团队进一步研究。但是,这些问题与这些公司的用例,搜索排名,图像和对象识别等相匹配,因此显得孤立。它们通常是开源的,可供企业使用,但可能不适用于企业的用例。企业机器学习专家和数据科学家将必须从头开始进行研究,并进行迭代以构建新的高精度模型。

  Nvidia的Volta架构

  Volta体系结构包括许多用于超级计算机的功能,这些功能可加快计算速度并优化以前的CPU,现在优化GPU,内存和互连带宽。

  Volta架构使用针对深度学习进行了优化的流式多处理器,已针对混合计算和寻址计算进行了调整。细粒度的同步和并行线程之间的协作改善了并行处理。连接的L1数据高速缓存和共享内存可显着提高性能并简化编程。

  它具有更高带宽的高速互连。多GPU系统之间的更多连接增加了可伸缩性和并行性。

  内存子系统使用Samsung HBM2内存快速内存可提供900 GB /秒的峰值内存带宽,该内存可以在运行许多工作负载时使用高达95%的内存带宽利用率。

  多进程服务为共享GPU的多个计算应用程序提高了性能,隔离性和服务质量。

  在多GPU应用中,使数据接近GPU执行指令可提高性能。统一内存和地址转换服务将内存页面迁移到最常访问它们的处理器,从而提高了处理器之间共享的内存范围的效率。

  Nvidia已为其企业服务器合作伙伴提供了一种架构,该架构旨在为他们提供给出售机器学习的企业。这是一项专业业务,因为企业需要不一定同时找到的四个特征:用于培训的大量数据集,高技能的数据科学家和机器学习专家,机器学习可以解决的战略问题以及不使用Google的原因亚马逊的即付即用产品。