如何设计支持人工智能的高性能数据中心网络架构? 最近,工业和信息化部发布了《促进新一代人工智能产业发展三年行动计划(2018-2020)》,旨在加快人工智能从战略到实施的发展,促进人工智能与实体经济的深度融合。在新工业革命的背景下,大数据、计算能力、算法等的快速迭代。将人工智能推向一个新阶段。2017年第三季度,全球人工智能公司融资超过77亿美元,是2012年的70多倍。有人可能会说这是一个“泡沫”,但我更愿意相信这是人工智能发展的必然结果。 最近,工业和信息化部发布了《促进新一代人工智能产业发展三年行动计划(2018-2020)》,旨在加快人工智能从战略到实施的发展,促进人工智能与实体经济的深度融合。在新工业革命的背景下,计算能力和算法的快速迭代将人工智能推向了一个新的阶段。2017年第三季度,全球人工智能公司融资超过77亿美元,是2012年的70多倍。有人可能会说这是一个泡沫,但我更愿意相信这是人工智能发展的必然结果。

如何设计支持人工智能的高性能数据中心网络架构?

在人工智能技术的应用过程中,所有企业都在寻找能够更好地支持高性能计算的基本网络解决方案。在文章“基础设施网络架构的最佳实践和未来趋势”中,我分享了如何设计稳定可靠的数据中心网络。接下来,我们将讨论如何设计一个支持人工智能应用的高性能无损网络。

前面提到的大数据、计算能力和算法的快速迭代将人工智能推向了一个新的阶段。这些技术的实施对网络的低延迟、无丢包和高性能三个方面提出了更高的要求。

▲人工智能应用技术体系及对数据中心网络的要求

更好地理解高性能和无数据包丢失,这指的是网络带宽性能的提高和没有由网络拥塞引起的数据包丢失。有许多环节会产生延迟。为了实现低端到端延迟,需要多角度分析:

其中,光电传输延迟和数据串行延迟相对较小,难以通过架构设计进行优化。我们应该关注主机处理延迟和设备转发延迟。大企业积极寻找高性能仪表

在计算方案中,基于以太网的RDMA(远程直接内存访问)以其高性能和低成本的优势逐渐取代InfiniBand成为主流技术。(RDMA结束

融合以太网)技术基于UDP协议,这对于构建支持人工智能应用的高性能无损以太网尤为重要。

结合设备转发级别的延迟优化方法,高性能无损网络的实现取决于两个要素:

无带宽融合的网络架构设计(1:1)

基于PFC(基于优先级的流量控制)和ECN(显式坦白通知)功能的优先级队列管理和拥塞管理

综上所述,人工智能集群高性能计算和网络方案的实践思路如下图所示:

▲人工智能集群高性能解决方案关键技术组合

在这里,我将以25G网络为例,结合行业主流产品形态,分享人工智能网络架构的设计和实现思路。

主要设计概念:

让核心设备全速、高性能地向前发展,无需核心之间的互连,采用光纤架构来隔离核心故障,并将核心故障的影响降至最低;

让三层路由网络,通过ECMP提高冗余度,降低故障风险;

TOR的上下收敛比率严格为1:1,通过增加核心设备的接口密度来扩大单个集群服务器的规模;

让PFC+ECN功能实现低延迟无损网络。

网络架构设计:

1.中小型(集群大小1000)

▲建筑设计

建筑特征:

每个TOR使用8*100GE连接8个32端口100g箱式交换机和OSPF/BGP网络

适用的集群大小为1000个单位。

每个TOR连接32台服务器,IDC的内部收敛比为1:1,集群带宽为25Tbps

2.中等(群集大小2000)

▲建筑设计

建筑特征:

每个TOR使用8*100GE连接8个64端口100G盒,OSPF/BGP网络

适用的群集大小为2000套

每个TOR连接32台服务器,IDC内部收敛比为1:1,集群带宽为50Tbps

3.大型(集群大小2000-18000)

▲建筑设计

建筑特征:

每个TOR使用8*100GE连接4~8个内核(框架式)和BGP网络

适用集群规模:2000~18000套

每个TOR连接32台服务器,IDC内部汇聚比为1:1,集群带宽为50 ~ 450Tbps

4.超大型(集群规模超过20000台)

▲建筑设计

建筑特征:

单个POD集群规模为1000 ~ 2000,数据中心集群规模为20000+BGP组网

POD中的收敛比是1:1,单个POD的簇带宽是25Tbps,总的簇带宽是500tps以上

POD的收敛比和上行带宽根据集群的带宽需求灵活配置,适合与非人工智能应用混合部署

在数据中心网络中,PFC和ECN功能将部署在叶设备和脊柱设备上。功率因数校正作用于设备的互连端口,并通过背压影响上游端口队列的发送速率,而ECN作用于设备的转发过程,并最终影响数据流的发送方,从而通过降低某个数据流的发送速率来避免数据包丢失。

q8.png

PFC机制将以太网链路上的流量划分为不同的级别,并且不会根据每个流量单独发送许可证。与PAUSE帧相比,PFC可以将链路虚拟化为8个不同级别的虚拟通道。当一个频道拥塞时,它不会影响其他频道。

RoCEv2定义了Rocev2融合管理(RCM),其中拥塞管理特征ECN(RFC 3168)是在交换机出口端口发起的拥塞控制机制。当交换机的出口缓冲区达到设定的阈值时,交换机将更改数据包报头中的ECN位,以便用ECN标签标记数据。当带有ECN标签的数据到达接收端时,接收端将生成一个会议通知包并发送给发送端。CNP包含导致拥塞的流量或QP信息。当发送端收到CNP时,将采取措施降低发送速度。

如何设计支持人工智能的高性能数据中心网络架构?

由于功率因数校正作用于整个队列,并且ECN仅用于导致拥塞的特定会话,因此在设置功率因数校正和ECN相关水线时,应在功率因数校正之前触发ECN

从外卖订单和汽车订单的智能调度,到电子商务平台的智能推荐,到人脸识别支付和即将到来的无人驾驶汽车的全自动批量生产,人工智能技术的应用已经影响到人们生活和工作的方方面面,使得每个人的生活更加方便和耗时。然而,这离不开基础设施的支持。瑞捷网络将凭借其在数据通信领域近20年的技术积累和行业经验,创新更好的产品和解决方案,帮助人工智能技术蓬勃发展。

如何设计支持人工智能的高性能数据中心网络架构?

2020-02-29 21:22:12 国际信息公司谷歌今年将在其美国办公室和数据中心投资100亿美元。 谷歌宣布了2020年的扩张计划,计划在11个州投资100多亿美元建设办公室和数据中心,包括加州、科罗拉多州和乔治亚州。

心灵鸡汤:

标题:如何设计支持人工智能的高性能数据中心网络架构?

地址:http://www.yunqingbao.cn/yqbxx/348.html