人工智能对我们数据中心的影响|康宁

数据中心AI可能有助于发现新的效率水平,但代价是对带宽的需求大幅增加

数据中心AI可能有助于发现新的效率水平,但代价是对带宽的需求大幅增加

作者:Tony Robinson,康宁光通信全球营销应用经理

电影制片人能够引入当时看起来离现实如此遥远的概念,但随着时间的推移,这些概念会进入我们的日常生活,这一点永远不会停止让人惊叹。1990年,阿诺德·施瓦辛格的电影总记得向我们展示了“Johnny Cab”,这是一种无人驾驶汽车,可以带他们去任何他们想去的地方。现在,大多数大型汽车公司都在投资数百万美元,将这项技术推广给大众。感谢回到未来2,Marty McFly在悬停板上躲避暴徒,我们的孩子们现在正在撞家具(和彼此),就像我们在1989年看到的那样。

早在1968年(我们中的一些人还记得),我们通过HAL 9000了解了人工智能(AI),这是一种有感知能力的计算机,安装在“发现一号”宇宙飞船上2001太空漫游.HAL能够语音和面部识别,自然语言处理,唇读,艺术欣赏,解读情感行为,自动推理,当然,还有好莱坞最喜欢的电脑把戏,下棋。

快进到过去几年,你很快就能发现人工智能已经成为我们日常生活中必不可少的一部分。你可以问你的智能手机下一个旅行目的地的天气如何,你的虚拟助手可以播放你最喜欢的音乐,你的社交媒体账户会根据你的个人喜好提供新闻更新和广告。恕我直言,这是人工智能101课。

但是,有太多的事情在幕后发生,我们没有看到它们在帮助改善,甚至拯救生命。语言翻译、新闻推送、面部识别、更精确的复杂疾病诊断以及加速药物研发,这些只是公司正在开发和部署人工智能的部分应用。根据Gartner的数据,到2022年,人工智能衍生的商业价值预计将达到3.9万亿美元。

深思熟虑的服务器

那么,人工智能将如何影响数据中心呢?早在2014年,谷歌就在他们的一个设施中部署了Deepmind的AI(使用机器学习,AI的一种应用)。结果呢?他们能够持续地达到减少40%在计算了电力损失和其他非冷却效率低下后,这相当于减少了15%的总PUE开销。它还产生了该站点有史以来最低的PUE。基于这些显著的节省,谷歌打算在他们的其他网站上部署这项技术,并建议其他公司也这样做。

Facebook的使命是“赋予人们建立社区的力量,让世界更紧密地联系在一起”,他们在白皮书中这样概述Facebook的应用机器学习:数据中心基础设施的视角它描述了在全球范围内支持机器学习的硬件和软件基础设施。

为了让你了解AI和ML需要多大的计算能力,百度硅谷实验室的首席科学家Andrew Ng说,训练百度的一个中文语音识别模型不仅需要4tb的训练数据,还需要20exaflops的计算,或者说在整个训练周期中200亿亿个数学运算。

但是我们的数据中心基础设施呢?人工智能如何影响所有不同大小和形状的设施的设计和部署,我们正在寻求建造、租赁或翻新,以适应这种创新、节约成本和救生技术?

ML可以在单台机器上运行,但由于难以置信的大量数据吞吐量通常在多台机器上运行,所有的机器都相互连接,以确保在训练和数据处理阶段的持续通信,低延迟,绝对不会中断我们的指尖、屏幕或音频设备的服务。作为一个人类,我们对更多数据的渴望正推动着满足我们最简单的奇思妙想所需带宽的指数级增长。

这些带宽需要在多个设备内部或跨多个设备进行分配,使用更复杂的架构设计,而棘叶网络不再适用——我们正在讨论的是超棘和超叶网络,它们为所有复杂的算法计算提供高速公路,让它们在不同的设备之间流动,并最终返回到我们的接收器。

数据中心中的技术部署选项

这就是纤维在确保你的照片或视频的特殊(或愚蠢)时刻被广播到全世界观看、分享和评论中发挥关键作用的地方。由于与铜材料相比,光纤具有高速和超高密度的性能,因此它已经成为我们数据中心基础设施中事实上的传输介质。当我们迁移到更高的网络速度时,我们也引入了一个全新的复杂性——采用哪种技术?

传统的三层网络采用核心交换、聚合交换和边缘交换连接数据中心内的不同服务器,服务器间的流量通过主用设备进行南北向的通信。然而现在,多亏了AI和ML给游戏带来的高计算需求和相互依赖性,更多的这些网络是使用2层的脊椎和叶子网络来实现的,其中服务器之间在东西方向进行通信,因为生产和训练网络要求的超低延迟。

自2010年IEEE批准40G和100G以来,出现了许多相互竞争的专有解决方案,这在一定程度上模糊了用户的判断,他们不确定该走哪条路。为了解释,在40G和其他设备之前,我们有SR,或称短延伸,用于多模式,LR,或称长延伸,用于单模式。两者都使用单对光纤在两台设备之间传输信号。不管你用的是谁的设备,或者在那个设备上安装了哪个收发器,它都是通过两条光纤进行的简单数据交易。

但IEEE批准的40G及以上的解决方案及其竞争对手改变了游戏规则。现在我们正在研究使用标准批准的或专有的、非互操作的WDM技术的两种光纤,以及标准批准的或多源协议(msa)和并行光学的工程技术,使用8根光纤(4根传输和4根接收)或20根光纤(10根传输和10根接收)。

  • 如果您想继续使用标准批准的解决方案并降低光学成本,因为您不需要单模光纤的距离能力,您可以选择多模并行光学,这也使您能够将高速的40或100G交换机端口分成更小的10或25G服务器端口。我将在本文中更详细地介绍这一点。

  • 如果您想延长已安装的双工光纤的寿命,并且不介意使用首选的硬件供应商,而不需要互操作性选项,并且同样不需要更长的距离,那么您可以选择多模WDM解决方案之一。

现在我要告诉你,大多数大规模部署人工智能的科技公司正在为他们的网络设计什么……单模并行光学。这里有三个简单的原因。

1.成本和距离

目前的市场趋势是,并行光解决方案首先被开发和发布,几年后WDM解决方案紧随其后,所以并行的体积要高得多,从而驱动更低的制造成本。它们还支持比2公里和10公里的WDM解决方案更短的距离,所以你不需要那么多的复杂组件来冷却激光器和在两端的信号复用和解复用。虽然我们已经看到这些“超级规模”的设施在巨大的校园里爆炸成3-4个足球场大小的建筑,但我们自己的数据显示,在这些设施中,单模光纤的平均部署长度还没有超过165米,所以没有必要支付更昂贵的WDM收发器来驱动它们不需要支持的距离。

并行单模也比WDM的变体使用更少的功率。正如我们从前面谷歌的例子中看到的,关于它们的电力使用,任何能够减少数据中心单一最大运营成本的事情都是好的。

2.灵活性

部署并行光学系统的一个主要优势是能够使用高速交换机端口(比如40G),并将其分解为4x10G的服务器端口。端口突破提供了巨大的规模经济,因为突破到较低的速度端口可以显著减少从3:1的机箱或机架安装单元的电子设备(数据中心的房地产并不便宜),使用更少的电力,这需要更少的冷却,从而进一步降低能源账单,我们的数据显示,这相当于在单模解决方案节省30%。收发器供应商还证实,所有已发货的并行光收发器中有很大一部分都是部署来利用这种端口断开功能的。

3.简单清晰的迁移

主要开关和收发器供应商的技术路线图为部署并行光学设备的客户提供了非常清晰和简单的迁移路径。我前面提到过,大多数科技公司都遵循这条路线,所以当光纤可用时,他们从100G迁移到200或400G,他们的光纤基础设施保持不变,无需升级。那些决定继续使用双工2光纤基础设施的公司可能会发现自己想要升级到100G以上,但在迁移计划的时间框架内可能无法使用WDM光。

对数据中心设计的影响

从连接性的角度来看,这些网络是高度网格化的光纤基础设施,以确保每个服务器之间的网络跳数不超过两个。但是带宽需求如此之大,以至于即使是传统的从脊柱交换机到叶交换机3:1的超订阅比也不够,它更典型地用于从不同数据大厅之间的超级脊柱进行分布式计算。

由于交换机IO速度的显著提高,网络运营商正在努力实现更好的利用率、更高的效率和我们提到的超低延迟,通过使用从脊椎到叶子的1:1订阅比来设计他们的系统,这在今天的AI计算环境中是一个昂贵但必要的要求。

此外,谷歌最近宣布了他们最新的AI硬件,一个被称为张量处理单元(TPU 3.0)的定制ASIC,在他们的巨型pod设计中,它将比去年的TPU强大8倍,超过100千万亿次。但是,在硅中增加更多的计算能力也会增加驱动它的能量,从而增加热量,这就是为什么同样的公告说他们是转向液冷因为TPU 3.0产生的热量已经超过了它之前的数据中心冷却解决方案的极限。

总之

人工智能是商业创新的下一波浪潮。它带来的优势包括节约运营成本、额外的收入流、简化客户交互以及更高效、数据驱动的工作方式,这些都太有吸引力了——不仅对你的首席财务官和股东,对你的客户也是如此。这一点在最近的一个小组讨论中得到了证实,当主持人谈到使用聊天机器人的网站时,他声称,如果它不够高效,不够以客户为中心,他就会停止对话,那家公司将永远不会再接受他的业务。

因此,我们必须拥抱技术并利用它为我们所用,这也意味着采用不同的方式来思考数据中心的设计和实现。由于asic性能的显著提高,我们最终将看到IO速度的提高,从而进一步推动连接。您的数据中心将需要超级高效、高度光纤网格、超低延迟、东西脊叶网络,以适应您的日常生产流量,同时并行支持ML培训,这使我很方便地总结了这一点。

我们已经看到了大型科技公司是如何拥抱AI的,以及部署并行单模模式是如何帮助它们实现比传统双工模式更高的资本和运营成本的,而传统双工模式承诺从第一天就降低成本。但是运营一个数据中心从第2天就开始了,并且随着我们个人和专业互动的习惯和方式的不断改变、速度的增加和复杂性的进一步增加而不断发展。现在安装正确的电缆基础设施解决方案将使您的企业从一开始就获得更大的经济利益,留住和吸引更多的客户,并使您的设施无论有什么需求都能灵活发展。

分享