本篇文章4076字,读完约10分钟

百度高级项目经理高峰:低延迟网络实践 百度低延迟网络的实践主要包括三个部分。第一部分是低延迟网络解决方案,介绍百度如何思考低延迟网络解决方案的设计过程。第二部分是低延迟网络技术的展望,介绍了低延迟网络技术的研究方向。第三部分是总结。 各位下午好。我很高兴有机会在这里与你分享。我来自百度系统部。我今天分享的话题是百度低延迟网络的实践。它主要包括三个部分。第一部分是低延迟网络解决方案,介绍百度在低延迟网络解决方案的设计过程中是如何思考的。第二部分是低延迟网络技术的展望,介绍了低延迟网络技术的研究方向。第三部分是总结。

百度高级项目经理高峰:低延迟网络实践

首先,让我们谈谈商业背景、人工智能、高性能计算云和实时分析。这些服务都是对时间延迟敏感的服务。为什么它们是延时敏感服务?将引入几个技术场景,例如深度学习、分布式计算、分布式存储以及计算和存储的分离。这些技术对网络提出了明确的要求,没有丢包和低时延。网络丢包对服务性能有非常严重的影响,网络延迟也是影响集群计算性能的主要指标。面对这些需求和挑战,我们的数据中心网络也应该同时做出相应的改变,以满足技术发展的需要。过去,我们的数据中心追求大带宽和无拥塞。今天,我们应该追求低延迟和无数据包丢失。我们的数据中心网络架构设计应该从以带宽为中心的设计转变为以延迟为中心的设计,以减少延迟的波动范围。

百度高级项目经理高峰:低延迟网络实践

为了设计一个低延迟的网络,首先要分析网络延迟的构成,它由五部分组成:光电传输延迟、数据串行延迟、设备转发延迟、重新排队延迟和主机处理延迟。光点传播延迟是一个固定值,不能更改。数据串行延迟和设备转发延迟主要取决于芯片技术的发展。信号传输和芯片流水线转发延迟被固化。通过升级硬件减少延迟的效果非常有限。我们的重点是重新排队延迟和主机处理延迟。通过主机端加速技术,可以减少主机处理延迟。我们选择RDMA和罗基作为方向。成本和技术成熟度是主要考虑因素。此外,随着100G技术的成熟,RoCE的优势越来越明显。在网络侧,我们选择DCB和ECN,通过流量控制技术避免网络拥塞造成的业务丢包。

百度高级项目经理高峰:低延迟网络实践

我们是RDMA和罗基的加速东道主。RDMA有两个表现方面。RDMA的性能优势主要体现在以下几个方面。1.零拷贝:减少数据拷贝的数量。由于数据没有被复制到内核状态,传输延迟将显著增加。2.内核级协议加载:不需要内核参与,数据路径中没有复杂的头处理逻辑,这不仅减少了延迟,还大大节省了CPU资源。

与TCP相比,RDMA的性能有明显的提高,但在不同的数据包大小和业务模式下,提高的效果是不同的。我们将语音识别培训提高了2倍,将机器翻译培训提高了15倍。

RoCE是RDMA的承载协议。RoCE和Infiniband在性能上基本相似,比iWARP行业生态更健壮。主流网卡制造商已经支持Roce。另外,RoCE网络在数据链路层支持标准以太网协议,在网络层支持IP协议,因此可以无缝集成到现有的数据中心网络中,部署和操作更加方便,设备成本更低。

以太网采用尽力而为转发方法,每个网络设备都会尽力将数据转发到下游设备。当下游设备的处理能力不足时,网络会出现拥塞或丢包,因此网络本身是不可靠的。无论是TCP还是RDMA协议,网络拥塞和丢包重传都会影响服务性能,尤其是RDMA协议对网络丢包的容忍度较低。为了减少或避免网络拥塞和丢包,目前常用的解决方案是PFC和ECN的流量控制技术。PFC是一种基于队列的背压协议。在独立场景中,PFC可以快速有效地调整服务器速率,以确保网络不会丢失数据包。然而,在多级网络中,诸如不公平的速度降低、PFC风暴、死锁等问题将会发生。此外,当异常服务器将PFC消息注入网络时,整个网络可能会瘫痪。因此,当数据中心启动PFC时,需要对暂停帧进行严格的监控和管理,以确保网络的可靠性。ECN是一种基于流量的端到端流量控制技术,其效果优于PFC,但也不理想。主要有几个问题。1.ECN的缺点是需要网卡端生成回压消息,反馈路径周期相对较长。2.随机打分是不公平的。3.水线的设计相对复杂,这也是现阶段ECN方案的最大挑战,因为水线不是固定值,应根据网络架构和业务特点进行设计。4.目前,各种网卡厂商的拥塞算法不一致。虽然计划不理想,但目前没有更好的选择。

百度高级项目经理高峰:低延迟网络实践

从以上解决方案设计来看,ECN和PFC的组合配置可以通过优先触发ECN消息来解决PFC的固有缺陷,从而减少网络中的PFC数量,并在PFC生效之前完成流量减速。

依靠有效的流量控制机制只能减少网络拥塞和丢包的发生。网络是一种共享资源,面对多种业务的并发流量所造成的拥塞,这是很难避免的。一个高效的网络必须避免触发流量控制机制,因此有必要从网络体系结构的角度同时考虑这个问题。更有效的方法是用带宽换取时间,并为服务器提供端到端的线速转发能力。以下介绍了在网络架构设计过程中应该注意的事项。低延迟网络架构设计中最关键的指标是加速比。加速比越大,网络拥塞越少,延迟越低。目前,我们的网络架构设计是1: 1的加速比。下一代新架构将加速比提高到4: 3以上,主要是为了避免结构中的拥塞和数据包丢失。加速比将提高网络性能。新架构还必须在提高性能的同时支付更高的网络成本。

百度高级项目经理高峰:低延迟网络实践

让我们在整个设计过程中分享一些想法。在整个低延迟网络解决方案中,有两种选择,第一种是单独部署功率因数校正,第二种是功率因数校正和ECN的组合。结果清楚地表明,体外循环+全氟化碳优于单独使用全氟化碳。加速比是一个关键指标,它决定了我们的效率。加速比越高,网络优势越明显。第三点是吃水线的设计。PFC的吃水线越大,ECN的吃水线越适合网络模型。

百度高级项目经理高峰:低延迟网络实践

让我们在方案设计的过程中分享一些我们的分析。有两种技术方案可供选择。第一种是单独部署PFC,第二种是PFC+ECN组合。我们分别在加速比为1: 1和加速比为4: 3的条件下,以及在不同的带宽利用率下进行测试,利用率分别为50%、75%和100%。结果显而易见。ECN+PFC优于单独使用PFC,在各种利用率下都有优势。加速比是一个关键指标。加速比决定网络效率。速度越高,优势越明显。吃水线的设计必须合理。只要PFC吃水线的设置符合净空高度,越大越好。ECN水线的设置取决于不同的水流模型。

百度高级项目经理高峰:低延迟网络实践

这种共享是PFC+ECN和新方案的比较。新方案是我们正在探索的方向。它将在tor下行链路端口上单独部署ECN。这个方案需要两个先决条件。ECN控制循环不会失败,fabirc不会在内部丢失数据包,并且加速比增加,以解决结构内部的数据包丢失问题。从结果来看,它将优于PFC+ECN方案。但是,如果不能保证结构内的数据包丢失,当只部署了ECN时,数据包丢失率会非常高。当利用率为100%时,丢包率高达5%或更高,这将产生非常严重的影响。最好采用PFC+ECN的组合方案。提高加速比可以缓解Fabric内部端口的拥塞,但仍然存在因流量不均衡而导致数据包丢失的可能性,还应实施理想的负载平衡方案。

百度高级项目经理高峰:低延迟网络实践

以上是百度对低延迟网络解决方案的思考,以下是我们对未来的技术展望。我们希望从控制、数据、管理和功能增强四个方面进行深入优化。

控制平面-优化反馈机制。目前,拥塞反馈信息相对单一,反馈内容非常少。由于网卡正在发出拥塞通知,反馈路径周期太长,控制平面数据不能保证高度优化。有必要优化通知消息并引入更多级别的拥塞通知机制,包括拥塞程度和其他信息,以通过各种方式加快速度,例如交换设备对拥塞通知的直接反馈、缩短反馈路径、确保控制平面消息在网络传输期间不被丢弃、以及由交换机触发丢包重传。

百度高级项目经理高峰:低延迟网络实践

数据平面-多路径负载平衡。目前,基于流的哈希算法主要用于多路径调度不同链路上的数据。重叠的大象流很容易在特定的路径上造成不均匀的流动和拥挤。如前一解决方案所述,结构中的负载平衡非常重要,需要从负载平衡算法方面进行优化。例如,根据成员接口的历史负载,选择空空闲链接。输出接口的队列长度被视为流量均衡的散列因子。切割象流,将流分成组,调度到不同的路径,并确保没有混乱。在这三个方面进行合作,以实现完美的负载平衡调度。

百度高级项目经理高峰:低延迟网络实践

管理平面自适应网络。低延迟网络对运维管理的自动化提出了更高的要求。与低延迟网络相比,它们对丢包率和性能提出了更高的要求。网络运行和维护管理应该屏蔽网络环境变化对性能的影响,并确保配置始终是最佳的。为了实现自适应网络效应,我们认为应该建立分析。第一点是服务的探索和发现。我们需要建立自己的服务测量能力,记录和提取服务路径上网络节点的转发信息。第二点是计算和特征分析。根据现有网络的实时数据和服务特点,可以计算出最优水位线阈值和最优策略。第三点是分布和连续优化。根据流量的特点,自动配置和动态调整参数,并自动分配给服务器和网络设备,实现自适应网络配置。

百度高级项目经理高峰:低延迟网络实践

第四点是功能增强——队列优化。数据中心有两个流量特征:大象流量和老鼠流量。大象流对时间延迟不敏感,数据包丢失对整体性能影响很小,但却占流量的80%。在网络拥塞期间,很容易填满交换机的队列。对延迟敏感的交通被饿死了。需要从交换机的队列级别进行优化。大象流应该被隔离成单独的队列,应该为鼠标流保留足够的缓冲区,并且应该使用单独的队列设计来实现设备级的低延迟转发。

百度高级项目经理高峰:低延迟网络实践

上述技术共享已经结束。在低延迟网络中,业界也非常关注并有许多相应的技术。由于时间关系,所以分享了很多。总结一下我今天的份额。总共有四个部分。第一部分是业务定位。对于百度来说,低延迟网络主要是针对百度云和人工智能的内生需求。我们分别部署了25G、40G和100G低延迟网络来支持业务需求。在网络定位方面,我们配合整体网络布局,实现局部加速。第三点是产品定位。目前,低延迟网络仍然存在许多问题和挑战。技术优化空仍然非常大。我们还希望在未来与制造商一起探索。第四点是架构演进的方向,探索大规模网络架构,并随着技术的发展逐步优化迭代。

百度高级项目经理高峰:低延迟网络实践

2020-02-12 18:24:58 大数据技术攻克爆发百度大数据助力科学防控 年底和年初,新型冠状病毒疫情突然出现。为了赢得这场没有硝烟的战争,我们需要动员社会各界力量克服困难,勇往直前。

标题:百度高级项目经理高峰:低延迟网络实践

地址:http://www.yunqingbao.cn/yqbxx/1259.html