如何设计支持人工智能的高性能数据中心网络架构？-云情报

如何设计支持人工智能的高性能数据中心网络架构？最近，工业和信息化部发布了《促进新一代人工智能产业发展三年行动计划(2018-2020)》，旨在加快人工智能从战略到实施的发展，促进人工智能与实体经济的深度融合。在新工业革命的背景下，大数据、计算能力、算法等的快速迭代。将人工智能推向一个新阶段。2017年第三季度，全球人工智能公司融资超过77亿美元，是2012年的70多倍。有人可能会说这是一个“泡沫”，但我更愿意相信这是人工智能发展的必然结果。最近，工业和信息化部发布了《促进新一代人工智能产业发展三年行动计划(2018-2020)》，旨在加快人工智能从战略到实施的发展，促进人工智能与实体经济的深度融合。在新工业革命的背景下，计算能力和算法的快速迭代将人工智能推向了一个新的阶段。2017年第三季度，全球人工智能公司融资超过77亿美元，是2012年的70多倍。有人可能会说这是一个泡沫，但我更愿意相信这是人工智能发展的必然结果。

如何设计支持人工智能的高性能数据中心网络架构？

在人工智能技术的应用过程中，所有企业都在寻找能够更好地支持高性能计算的基本网络解决方案。在文章“基础设施网络架构的最佳实践和未来趋势”中，我分享了如何设计稳定可靠的数据中心网络。接下来，我们将讨论如何设计一个支持人工智能应用的高性能无损网络。

前面提到的大数据、计算能力和算法的快速迭代将人工智能推向了一个新的阶段。这些技术的实施对网络的低延迟、无丢包和高性能三个方面提出了更高的要求。

▲人工智能应用技术体系及对数据中心网络的要求

更好地理解高性能和无数据包丢失，这指的是网络带宽性能的提高和没有由网络拥塞引起的数据包丢失。有许多环节会产生延迟。为了实现低端到端延迟，需要多角度分析:

其中，光电传输延迟和数据串行延迟相对较小，难以通过架构设计进行优化。我们应该关注主机处理延迟和设备转发延迟。大企业积极寻找高性能仪表

在计算方案中，基于以太网的RDMA(远程直接内存访问)以其高性能和低成本的优势逐渐取代InfiniBand成为主流技术。(RDMA结束

融合以太网)技术基于UDP协议，这对于构建支持人工智能应用的高性能无损以太网尤为重要。

结合设备转发级别的延迟优化方法，高性能无损网络的实现取决于两个要素:

无带宽融合的网络架构设计(1:1)

基于PFC(基于优先级的流量控制)和ECN(显式坦白通知)功能的优先级队列管理和拥塞管理

综上所述，人工智能集群高性能计算和网络方案的实践思路如下图所示:

▲人工智能集群高性能解决方案关键技术组合

在这里，我将以25G网络为例，结合行业主流产品形态，分享人工智能网络架构的设计和实现思路。

主要设计概念:

让核心设备全速、高性能地向前发展，无需核心之间的互连，采用光纤架构来隔离核心故障，并将核心故障的影响降至最低；

让三层路由网络，通过ECMP提高冗余度，降低故障风险；

TOR的上下收敛比率严格为1:1，通过增加核心设备的接口密度来扩大单个集群服务器的规模；

让PFC+ECN功能实现低延迟无损网络。

网络架构设计:

1.中小型(集群大小1000)

▲建筑设计

建筑特征:

每个TOR使用8*100GE连接8个32端口100g箱式交换机和OSPF/BGP网络

适用的集群大小为1000个单位。

每个TOR连接32台服务器，IDC的内部收敛比为1:1，集群带宽为25Tbps

2.中等(群集大小2000)

▲建筑设计

建筑特征:

每个TOR使用8*100GE连接8个64端口100G盒，OSPF/BGP网络

适用的群集大小为2000套

每个TOR连接32台服务器，IDC内部收敛比为1:1，集群带宽为50Tbps

3.大型(集群大小2000-18000)

▲建筑设计

建筑特征:

每个TOR使用8*100GE连接4~8个内核(框架式)和BGP网络

适用集群规模:2000~18000套

每个TOR连接32台服务器，IDC内部汇聚比为1:1，集群带宽为50 ~ 450Tbps

4.超大型(集群规模超过20000台)

▲建筑设计

建筑特征:

单个POD集群规模为1000 ~ 2000，数据中心集群规模为20000+BGP组网

POD中的收敛比是1:1，单个POD的簇带宽是25Tbps，总的簇带宽是500tps以上

POD的收敛比和上行带宽根据集群的带宽需求灵活配置，适合与非人工智能应用混合部署

在数据中心网络中，PFC和ECN功能将部署在叶设备和脊柱设备上。功率因数校正作用于设备的互连端口，并通过背压影响上游端口队列的发送速率，而ECN作用于设备的转发过程，并最终影响数据流的发送方，从而通过降低某个数据流的发送速率来避免数据包丢失。

q8.png

PFC机制将以太网链路上的流量划分为不同的级别，并且不会根据每个流量单独发送许可证。与PAUSE帧相比，PFC可以将链路虚拟化为8个不同级别的虚拟通道。当一个频道拥塞时，它不会影响其他频道。

RoCEv2定义了Rocev2融合管理(RCM)，其中拥塞管理特征ECN(RFC 3168)是在交换机出口端口发起的拥塞控制机制。当交换机的出口缓冲区达到设定的阈值时，交换机将更改数据包报头中的ECN位，以便用ECN标签标记数据。当带有ECN标签的数据到达接收端时，接收端将生成一个会议通知包并发送给发送端。CNP包含导致拥塞的流量或QP信息。当发送端收到CNP时，将采取措施降低发送速度。

如何设计支持人工智能的高性能数据中心网络架构？

由于功率因数校正作用于整个队列，并且ECN仅用于导致拥塞的特定会话，因此在设置功率因数校正和ECN相关水线时，应在功率因数校正之前触发ECN

从外卖订单和汽车订单的智能调度，到电子商务平台的智能推荐，到人脸识别支付和即将到来的无人驾驶汽车的全自动批量生产，人工智能技术的应用已经影响到人们生活和工作的方方面面，使得每个人的生活更加方便和耗时。然而，这离不开基础设施的支持。瑞捷网络将凭借其在数据通信领域近20年的技术积累和行业经验，创新更好的产品和解决方案，帮助人工智能技术蓬勃发展。

如何设计支持人工智能的高性能数据中心网络架构？

2020-02-29 21:22:12 国际信息公司谷歌今年将在其美国办公室和数据中心投资100亿美元。谷歌宣布了2020年的扩张计划，计划在11个州投资100多亿美元建设办公室和数据中心，包括加州、科罗拉多州和乔治亚州。

心灵鸡汤：

标题：如何设计支持人工智能的高性能数据中心网络架构？

地址：http://www.yunqingbao.cn/yqbxx/348.html

如何设计支持人工智能的高性能数据中心网络架构？

云情报推荐资讯

satellite_satellites怎么读

高效运维社区创始人肖天国:运维镇痛剂？德文普斯，看看。

阿里再次与数据端口联手打造至少40亿的数据中心服务量

任光明:解读金融业绿色数据中心运营维护标准

湘潭免联考mba

2024年趋势揭秘：304不锈钢管的广泛应用与品质追求

经营管理研修班英文

sunday是什么意思_sunday是什么意思中文翻译

云情报最新资讯

制定高效社交媒体营销策略：全面指南与实用技巧

在进行B站推广的时候要注意哪些问题呢？

世纪坛医院黄牛挂号(号贩子挂号)指南—第一时间出号

qq群排名靠前的方法_qq群排名靠前的方法有哪些

qq群拉死人下单平台_qq群拉死人下单平台是真的吗

qq群拉僵尸粉网站_qq群拉僵尸粉网站免费

云情报热文榜

周俞坊《养老网》未来之星！塑造时代楷模，共建和谐社会！

rank函数解决并列排名_rank函数解决并列排名不连续

129Life正式以反向并购的方式于英国伦敦股票上市

南京：古今交融的历史与现代之旅

陈奕迅FEAR and DREAMS世界巡回演唱会苏州站圆满收官

京东白条怎么套出来使用，推荐六种方法

骆驼蓄电池国际版：多样化产品矩阵引领市场潮流

出海企业营销工具：助力全球化业务增长

长沙联通与长沙迈越精密机械有限公司签署战略合作协议

qq群推广工具_qq群推广app