本篇文章5611字,读完约14分钟
陆睿:对下一代数据中心光互连技术的思考 陆睿分享了自己对数据中心下一代光互连技术的想法,分享了阿里巴巴在开放AOC和光模块方面的经验,最后介绍了阿里巴巴数据中心网络和共享接入解决方案的发展方向。
各位下午好。我叫陆睿,来自阿里巴巴集团。在阿里巴巴,我主要负责光网络架构设计和今天。我很荣幸今天再次来到这里与大家分享这项技术。我今年的技术共享主题是思考数据中心的下一代光互连技术。在2016年之前,我们阿里巴巴已经在服务器到交换机的层面上使用了实际的开放式AOC。当时,我们采用了较慢的开放角度,因为我们认为光互连在交换机连接上承载了更多的流量。2016年,我们进行了一次40千兆字节的光学模块试点。总的结果看起来不错,并证实了我们决心走上开放光学模块AOC的道路。到今年,我们在阿里的网络应该说,全面部署的开放25G,100G,10G,40G,都在使用开放的AOC和光学模块。
稍后我将在这里分享我们的经验。首先,我想说的是,在过去的一年里,我们的互联网和人工智能的发展使我们的数据中心发展得非常快,无论是数据中心的建设量还是对数据中心性能提升的需求都变得越来越迫切。到2019年,我们数据中心的光学模块数量将达到1000万,到2021年,市场规模将达到49亿美元,增长非常迅速。从以前的技术来看,主要推动力是电信网络,众所周知,像路由器和光传输一样,对带宽增长的需求更为迫切。但从我们现在看到的情况来看,以100克为例,它在路由器和传输设备上出现的时间要比在数据中心的交换机上早几年。不过,400G一代的CFP模块去年已经有了产品,但数据中心的100G光模块预计将在今年年底出现,差距将变为一年,未来的时间需求可能也是一样的。从另一个角度来看,数据中心对光模块的要求不同于电信网络。它对小型化、高密度、低功耗和低成本有更高的要求。换句话说,我们相信数据中心现在已经成为推动光通信技术发展的另一个领导者。
此外,我们可以看到数据中心的硬件和软件正呈现完全开放的趋势。数据中心的基础设施对我们的最终用户来说越来越像白盒,不再是我们看不见的黑盒。这种好处不仅降低了成本,还使我们能够更多地接触到内部技术,从而更快地反映对上游供应商的真实需求,并将我们的需求转化为现实。这也是为什么不同于以前的标准,各种MIC标准在100G时代出现,因为数据中心的用户需求也变得多样化。
我们在开放式光学模块AOC方面的经验分享有五点。首先是技术规格的制定,我们认为这非常重要。尽管我们都知道有一些标准组织,如光学模块和自动光学控制,已经制定了所有的光电参数或定义。当我们进行集成时,我们经常会发现系统设备中插入了光学模块或自动光学控制器,或者无法识别、无法工作、不稳定,或者发现的访问信息不正确。原因是虽然有标准,但在实施过程中,设备制造商和光模块供应商会有不同的理解,或者为了快速推出产品,标准还没有完全适应。例如,对内容的理解或高速信号之间的匹配所导致的差异,尤其是在像25G这样的时代,当光学模块AOC具有CDR和均衡时,这些参数的匹配所导致的问题比像10G和1G这样的先前光学模块更多。有些不支持40万,或(英语),这导致获取信息的错误。这些是我们在不断探索中必须制定的规则,这样我们在整合过程中就不会有太多问题。
第二是集成测试的重要性。它应该与标准相结合。在我们的集成设计中发现的问题应该很快反馈到我们的规范中。这两篇文章可以使系统设备中使用的整个光模块更加流畅。
另一个挑战是性能、稳定性和可靠性。众所周知,阿里的云计算业务非常关键。在提高光通信整体速度的过程中,效率不断提高。负2的幂与1 10的幂之比大于16分钟,10G可能是100秒,100G可能是10秒。在相同的雾码速率下,当数据增加时,这一点将越来越明显。事实上,我们的数据中心不希望看到任何雾码,尤其是当前的存储服务对数据包丢失越来越敏感,因此我们对光模块性能的要求实际上是在提高,而不是降低,同时我们的服务要求更高的稳定性和可靠性。我们对光模块制造商有2000小时的此类测试要求。
另一个是,在使用开放式光学模块的过程中,我们也必须面对这种构造和操作的挑战。因为过去我们用系统设备提供光学模块,但现在它们都是由用户自己建造和操作的。如果出现任何问题,我们应该有能力定位问题并划分责任,以便快速确定责任方。
更重要的是,我们应该在实践中不断总结如何发现这些问题、工艺问题和技术问题,最终理清整个工艺思路,这样整个开放式第三方光模块的AOC在数据中心就不会有任何问题。
接下来,我们来谈谈阿里数据中心网络的发展方向。此图是典型数据中心网络的体系结构图。这里,我们的光互连技术分为两个部分。第一块是从服务器到接入交换机。该层通常使用AOC作为传输介质。然后到核心交换机,我们通常使用光学模块。从这个速率可以看出,它们的速率倍数是4倍,可能是千兆到10万亿之间的10倍。然而,在10G之后,我们也面临着速度提升的瓶颈,所以我们都是4倍的关系。因为服务器和接入交换机之间的距离相对较近,所以通常是通过电缆,也就是AOC。交换机和交换机之间的连接距离通常比较长,我们使用光模块加光缆。过去,每个人都部署了10G和40G,现在部署了25G和100G。未来,我们希望达到100克和400克网络,将100克连接到上述交换机,将400克连接到上述交换机。单通道25G是下一代的50G。为什么我们跳过50G和200G?因为我们认为无论是上游供应商还是用户,我们都投入了大量的精力来提高这一比率。如果好处只有两倍,这不是很好。我们希望一步跳到400克和100克。
本页是数据中心网络的发展时间表。OFC曾经预测数据中心网络的增长率应该是三年零一代。从实际开始,我们更符合这个进化方向。10G和40G的部署将于2013年和2014年左右开始,25G和100G的批量部署将于今年晚些时候开始。我们预测,到2020年,批量部署100克和400克网络将成为可能。
在这一页上,我们介绍了未来可能的400G光学模块封装。我们都知道光学模块的包装有大有小。较大的封装便于容纳更多的光学元件,可以提供更多的接口,并且可以容忍更高级别的光学模块。CDFP和CDP8就像这样。这是使用它们的早期方式。例如,CDFP和CFP8只能容纳16台交换机,功耗最高可达12W,最大带宽为6.4T。由于这两种封装太大,我们不认为它们会成为数据中心交换机的选择,但在电信网络中应该选择更多。电信号通道的数量是16个25G,这意味着这种光学模块可以与当前的服务能力一起使用。在我们的数据中心中,更有可能的400克光学模块封装应该是OSPF和QSFP-DD,它们相对较大,都是8个50克电信号接口。每个单位大小的端口数量没有太大的不同,分别是32个和36个。总的来说,它们为每个用户提供12.8吨和14.4吨的带宽。我们更喜欢QSFP-DD,它的大小与被遗忘的QSP28相同。对于我们数据中心的常驻人员,该光学模块的尺寸和外观没有太大变化,这对于我们的操作和维护人员来说更容易识别,并且没有额外的风险。同时,它仍然是小型化的。对于系统设备制造商来说,设计可以保持以前的实力,对于我们的建筑设计来说,它可以沿袭过去。QSFP112为100克,短期内实现这样一个低成本的4,100克功率通道方案应该很困难。除了这些可插拔模块包,还有一个板载解决方案,这是数据中心用户的一大难题,因为他们不能在现场操作。除非我们的可插拔包确实不可能,否则我们不会选择这种板载解决方案。
此图显示了阿里数据中心从去年的10G和40G到未来的25G和100G的计划。10G是AOC,40G主要是ESR4,部署于2013年。今年部署了25G和100G,但由于100G只能达到100米PSM4,所以必须解决100米以上的长距离问题。在未来的100克和400克网络中,我们最初的计划是使用100克SSFP56-DD作为接入层。整个进化过程非常清楚。从10G到100G的访问数据,交换机上的端口密度可以保持不变,而带宽密度增加了2.5倍和10倍。
接下来,让我们解释为什么选择这个方案。在10G和40G时代,标准不多,主要是40G SR4、ESR4和LR4。对于数据中心的连接,300米已经覆盖了大多数连接场景。这也是我们大多数人在40G时代选择多模方案的原因。超过300米的极少数使用40G LR4lite或LR4单模方案。10G接入主要基于AOC方案,距离限制小,成本可接受。
在今天的25G和100G时代,我们现在看到的是100G SR4多模块解决方案技术相对成熟,但它只能解决高达100米的距离,覆盖了大部分场景,但仍有许多超过70米和100米的连接。我们选择PSM4,它有更多的优势。对于中国的大多数数据中心,多模式和单一模式的混合是可以接受的。很少有人采用单一的结构化方法。在美国,使用更多结构化布线,并且可以使用完整的单模解决方案。对于25G接入,我们现在看到的是,AOC目前的成本仍然相对较高,但处于快速下降的渠道。数模转换器在性能或操作维护接口上不如声光控器,但目前成本相对较低,所以在一些地方仍有空的应用。
随着下一代100G和400G网络的出现,实现我们的高速信号变得越来越困难。我们过去知道,实际上有两种方法可以增加整个光纤连接的带宽。第一是增加每个通道的比特率,第二是增加通道的数量。有两种方法可以提高比特率。第一个很简单。我们直接提高波特率。第二种可能性是保持波特率不变。我们使用更高的调试代码格式。在千兆位,不到一万兆字节,因为在这个时候技术瓶颈还没有到来,我们将直接提高波特率。然而,当波特率超过10G时,无论是电还是光,提高波特率变得越来越困难,所以我们必须通过编码来增加带宽。二是增加波长信道和光纤信道,增加成本。
对于未来的100G接入解决方案,我们分析应该有三代进化。第一代是现在,现在我们实际上有少量的100G访问应用场景。根据目前的技术,我们必须选择QS28电信模块。第二代将与下一代集成电路芯片合作,无论是电还是光,成为250克的实现。未来的第三代是100克单通道。对于这种100克的访问,有他们自己的应用场景。AOC主要负责较长的电缆,铜电缆负责较短的电缆。
到400克解决方案,开发分为四代。一般来说,光速比电的速度快。第一代人可以看到现在有产品。即使采用CPF8等光学模块封装,电信仍是16和25G。在多模式下,光信号仍为16和25克,光信号有8个50克FR8和L8解决方案。在第二代中,整个电信号被升级到50G,8通道。单模有FR8和LOR8。电信号和光学数据完全匹配。第三代产品的电信号是50G,光可以增加到100G。有三种方案。SR4取决于多模技术是否有潜力升级到100克的单通道。到第四代末,电和光都已升级到100克的单通道。在过去,当没有光电信号失配时,成本应该是最低的。现在,如果有任何光电信号不匹配,齿轮箱技术需要增加。
在阿里的下一代100G接入方案中,目前优选在接入层使用100G SR2AOC。该AOC主要解决25米至30米的接入连接,优势明显,距离远,整体限制少。缺点是,由于芯片和模块的发展,标准化进程将会较慢,初始成本将会较高。铜连接方案的主要优点是可以使用25G数模转换器,产品可以快速开发。缺点也很明显,距离短,整个电缆会更厚,大规模部署的性能也会有风险。400G光互连方案首先着眼于多模。有些方案是SR4.2或SR8,现在很难挖掘其潜力。然而,垂直腔面发射激光器本身具有很大的成本优势。如果可以在50G下实现,仍然存在应用成本,并且模块的成本可以被控制得非常低。SR16不建议这样做。尽管SR8和SR4.2满足我们的要求,但从我们之前的操作和维护来看,我们仍然希望使用4.2,这需要两个多模通道。在这种情况下,可以使用宽带多模光纤。光纤的成本越低,我们认为8星宽带多模越低。因此,多模方案能否在400G时代实施取决于光纤。如果光纤加光模块的总成本优于单模,它仍有生命力。
接下来是400G-g单模方案,我们认为它相对简单明了。因为我们数据中心最大500米的长度可以覆盖大多数应用,所以DR4应该是主要的单模方案,可以用于PSM4的8芯单模光纤。光纤的成本是可以接受的,并且不需要波分装置,从而在DR4中实现更多的优点。FR4还具有应用场景,可用于500米以上的跨楼层应用。这两个方案是我们认为将用于未来数据中心的主要方案。
接下来是我们要选择的400克光模块的包装。如前所述,QSFP-DD是一个支持可插拔、保持与以前相同的操作和维护习惯和密度的选择,并且可以向后兼容或向上平滑并升级到下一个400 g。进化路线非常清楚。
100G接入模块的封装改为双通道。如果之前的4通道封装仍用于两个通道,则不利于小型化。我们也在SFP的基础上做了一些创新,与一些供应商共同推动建立了SFP-DD的MSA组织,使高速信号翻倍。最重要的意义在于填充光模块封装中两个通道的空白色。选择它的原因是该包比QSDB小,后者适合我们的数据中心,并且保持兼容性。它可以兼容25G和50G。一些客户可能需要这样的应用程序。
因此,我们可以看到这是阿里对未来100克和400克的计划。目前,我们的计划还没有成为未来真正着陆的最终计划。然而,我们希望能够从他人那里获得灵感,并与ODCC环境中的上游供应商进行讨论。通过沟通,我们可以决定我们未来100和400网络的共同方向。谢谢你。
2020-02-29 21:22:12 国际信息公司谷歌今年将在其美国办公室和数据中心投资100亿美元。 谷歌宣布了2020年的扩张计划,计划在11个州投资100多亿美元建设办公室和数据中心,包括加州、科罗拉多州和乔治亚州。
标题:陆睿:对下一代数据中心光互连技术的思考
地址:http://www.yunqingbao.cn/yqbxx/1392.html