人工智能及其对数据中心的影响

它可能有助于发现新的效率水平,但代价是对带宽的需求大幅增加

它可能有助于发现新的效率水平,但代价是对带宽的需求大幅增加

康宁光通信全球市场应用经理Tony Robinson

电影制作人如何能够将那些当时似乎与现实相去甚远的概念引入到我们的日常生活中,这一点从未停止过令人惊讶。1990年,阿诺德·施瓦辛格的电影总记得向我们展示了“约翰尼出租车”,一种无人驾驶汽车,可以带他们去任何他们想去的地方。现在,大多数大型汽车公司都在投资数百万美元,将这项技术推向大众。感谢《回到未来2》马蒂·麦克弗莱(Marty McFly)在悬停板上躲避暴徒,现在我们的孩子们撞到了家具(还有彼此),就像我们在1989年看到的那样。

早在1968年(我们中的一些人还记得),我们就通过HAL 9000接触到了人工智能(AI),这是在发现号一号宇宙飞船上的一台有感知能力的计算机《2001太空漫游.HAL具备语音和面部识别、自然语言处理、唇读、艺术欣赏、解读情感行为、自动推理,当然,还有好莱坞最喜欢的电脑技巧——下棋。

快进到过去几年,你可以很快地发现人工智能已经成为我们日常生活的重要组成部分。你可以向智能手机询问下一个旅行目的地的天气情况,你的虚拟助手可以播放你最喜欢的音乐,你的社交媒体账户会根据你的个人喜好提供新闻更新和广告。我不想侮辱科技公司,这是AI 101。

但是,在这种背景下发生的事情太多了,我们看不到这有助于改善甚至挽救生命。语言翻译、新闻提要、面部识别、更准确地诊断复杂疾病以及加速药物发现只是公司开发和部署人工智能的部分应用。根据Gartner的数据,到2022年,人工智能衍生业务价值预计将达到3.9万亿美元。

周到的服务器

那么人工智能如何影响数据中心呢?好吧,早在2014年,谷歌就在他们的一个设施中部署了Deepmind AI(使用人工智能的应用程序机器学习)。结果如何?他们能够始终如一地实现目标减少40%这相当于在考虑了电力损失和其他非制冷低效因素后,总PUE开销减少了15%。它产生的PUE也是该地区所见过的最低的。基于这些显著的节省,谷歌希望在他们的其他站点部署该技术,并建议其他公司也这样做。

Facebook的使命是“给予人们建立社区的力量,让世界更紧密地联系在一起,”他们在白皮书中概述道应用机器学习在Facebook:一个数据中心基础设施的视角它描述了在全球范围内支持机器学习的硬件和软件基础设施。

给你一个想法的AI和ML多少计算能力需求,Andrew Ng,百度的硅谷实验室首席科学家说训练一个百度的中文语音识别模型不仅需要4 tb的训练数据,而且20 exaflop的计算,或200亿年,十亿数学操作在整个训练周期。

但是我们的数据中心基础设施呢?人工智能如何影响所有不同大小和形状的设施的设计和部署,我们正在寻找建造、租赁或更新,以适应这种创新、节省成本和拯救生命的技术?

毫升可以在单个机器上运行,但由于难以置信的吞吐量的数据量通常是在多台机器上运行,所有相互关联,以确保持续的沟通在培训和数据处理阶段,低延迟和绝对没有中断服务在我们的指尖,屏幕,或音频设备。作为人类,我们对越来越多的数据的渴望正在推动带宽的指数增长,以满足我们最简单的突发奇想。

这个带宽需要分布式内和跨多个设备使用更复杂的架构设计,spine-and-leaf网络不再把它——我们正在谈论super-spine和super-leaf网络提供一个高速公路的所有复杂的算法计算不同设备之间流动,最终回到我们受体。

数据中心的技术部署选项

这就是纤维在确保你的特殊(或愚蠢)时刻的照片或视频被全世界看到、分享和评论方面发挥着关键作用的地方。与铜相比,光纤具有高速和超高密度的性能,因此已经成为我们数据中心基础设施中事实上的传输媒体。当我们迁移到更高的网速时,我们也引入了一种全新的复杂性——采用哪种技术?

传统的三层网络使用核心、聚合和边缘交换来连接数据中心内的不同服务器,在数据中心内,服务器间的流量以南北方向通过活动设备进行通信。然而,现在大大得益于高计算需求和inter-dependency AI和ML的游戏,更多的网络使用层spine-and-leaf网络,实现服务器交谈在东西方向由于超低延迟生产要求和培训网络。

自从2010年IEEE批准了40G和100G之后,出现了许多相互竞争的专有解决方案,这在一定程度上影响了用户的判断,他们不确定该走哪条路。要解释一下,在40G和其他版本之前,我们有多模的短程(SR)和单模的长程(LR)。两者都使用单对光纤在两个设备之间传输信号。不管你使用的是谁的设备,也不管你的设备上安装了哪个收发器,这只是一个通过两条光纤进行的简单数据处理。

但IEEE批准了40G及以上的解决方案,它的竞争对手改变了游戏规则。现在我们正在看两个纤维使用standards-approved或专有,non-interoperable WDM技术,和standards-approved或多源协议(MSAs)和工程技术使用8个并行光学纤维(四个传输和四个接收)或20纤维(10传输和接收)。

  • 如果你想继续使用标准认可的解决方案并降低光学成本,因为你不需要单模光纤的距离能力,你可以选择多模平行光学,这也可以让你将高速40或100G的开关端口转换成更小的10或25G服务器端口。我将在本文中更详细地讨论这一点。

  • 如果您希望延长已安装的双工光纤的使用寿命,并且不介意与首选硬件供应商保持联系,而不选择互操作性,并且不需要更长的距离,请选择一种多模WDM解决方案。

现在我要告诉你的是,大多数大规模部署人工智能的科技公司都在为今天和明天的网络设计单模平行光学。这里有三个简单的原因。

1.成本和距离

当前的市场趋势是首先开发并发布并行光学解决方案,几年后WDM解决方案紧随其后,因此并行量更高,从而降低了制造成本。它们还支持比2 km和10 km WDM解决方案更小的距离,因此不需要那么多复杂的组件来冷却激光器,并在两端复用和解复用信号。虽然我们已经看到这些“超规模”设施的规模和规模在巨大校园内爆炸成3-4个足球场大小的建筑,但我们自己的数据显示,这些设施中单模光纤的平均部署长度尚未超过165米,因此,不需要为更昂贵的WDM收发器支付费用,以驱动他们不需要支持的距离。

并行单模也比波分复用型消耗更少的功率。正如我们在前面谷歌的例子中所看到的,任何能够降低数据中心最大运行成本的方法都是一件好事。

2.灵活性

部署并行光学的主要优势之一是能够将高速交换机端口(比如40G)分解成4x10G服务器端口。港口突破提供了很大的规模经济,因为爆发成降低速度港口可以显著减少底盘的数量或机架式单位电子从3:1(和数据中心房地产不便宜),耗能更低,这需要更少的冷却进一步降低了能源法案,我们的数据显示,这相当于单模解决方案节省了30%。收发机供应商也确认,在所有装运的并行光收发机中,有很大一部分都部署在利用这个港口突破能力的地方。

3.简单清晰的迁移

主要交换机和收发器供应商的技术路线图为部署并行光学器件的客户提供了一条非常清晰、简单的迁移路径。我在前面提到过,大多数科技公司都遵循这一路线,因此,当光纤可用时,它们可以从100G迁移到200或400G,它们的光纤基础设施将保持不变,无需升级。那些决定继续使用双工、双光纤基础设施的公司可能会发现自己想要升级到100G以上,但WDM光纤可能无法在迁移计划的时间范围内提供。

对数据中心设计的影响

从连接性的角度来看,这些网络是高度网状的光纤基础设施,以确保每个服务器之间的网络跳数不超过两个。但这种带宽需求使得即使是传统的从脊椎交换机到叶子交换机的3:1超额订阅率也不够,更典型的是用于不同数据大厅之间超级脊椎的分布式计算。

由于交换机IO速度的显著提高,网络运营商正在努力实现更好的利用率、更高的效率和我们提到的超低延迟,他们的系统使用脊椎和叶子的1:1订阅比来设计,这在当今的人工智能密集环境中是一个昂贵但必要的要求。

此外,我们有另一个转变后的传统数据中心设计从谷歌最近宣布他们最新的人工智能硬件、定制ASIC称为张量处理单元(TPU 3.0),在其巨大的圆荚体设计,将八倍比去年的TPU与超过100次。但是,将更多的计算能力集成到硅上也会增加驱动它的能量,因此也就增加了热量,这就是为什么同样的公告说它们是转向液冷因为TPU 3.0产生的热量超过了之前数据中心冷却解决方案的限制。

总之

人工智能是下一波商业创新。它带来的运营成本节约、额外的收入流、简化的客户互动和更高效的、由数据驱动的工作方式的优势太有吸引力了——不仅对你的CFO和股东,对你的客户也是如此。这一点在最近的一次小组讨论中得到了证实,当主持人谈到使用聊天机器人的网站时,他声称,如果聊天机器人不够高效,客户注意力不够集中,他就会停止对话,公司将永远不会再得到他的业务。

因此,我们必须拥抱技术,并利用它为我们的优势,这也意味着采用不同的方式来思考数据中心的设计和实现。由于asic性能的显著提高,我们最终将看到IO速度的提高,从而推动更深层次的连接。您的数据中心将需要超级高效、高度光纤网格、超低延迟、东西方脊柱和叶式网络,以适应您的日常生产流量,同时支持并行的ML训练,这让我很方便地总结了这一点。

我们已经看到了主要的科技公司是如何接受人工智能的,以及部署并行单模式如何帮助他们实现了比传统双工方法更高的资本和运营成本,而传统双工方法承诺从一开始就降低成本。但是,数据中心的运营从第二天开始,并随着我们个人和专业互动的习惯和方式的不断改变、速度的提高和复杂性的进一步增加而不断发展。现在安装正确的布线基础设施解决方案将使您的企业从一开始就获得更大的财务效益,留住并吸引更多的客户,并使您的设施能够灵活发展,无论对其提出何种要求。

分享