摘 要勾引 英文
刻下算力需求爆发式增长,通用诡计也朝着东谈主工智能诡计的标的演进,新式智算中心蚁集算作算力间数据交互的中心,成为影响算力性能进展的重要。分析了智算中心对蚁集的需求,对蚁集左券、架构和运维管制等方面进行了深化推断,并攀附业界发展情况,给出了智算中心组网决策的建议。
淫民导航图片
0 1
智算中心的重要性及组网挑战
算力是数字经济期间的中枢分娩力,是股东经济发展的新引擎。跟着元天地、ChatGPT等业务的兴起,谈话处理、机器视觉、自动驾驶等多个规模借助遒劲的数据诡计本领,赢得了长足的发展。相较于传统云诡计、超算中心,智算中心更能知足日益丰富的东谈主工智能算力需求,过去80%的场景所使用的算力资源王人将由智算中心承载[1]。而参数目广泛的AI模子,对智能算力的需求马上升迁,凭证IDC评估说明,预计2021年—2026年,中国智能算力范围年复合增长率达52.3%[2]。举例,现在L2级别的自动驾驶时常需要数百TOPS的算力,但要念念竟然达成L4/L5级别的自动驾驶,至少需要20 000+TOPS的算力。
受制于芯片材料、工艺、资本等成分,算力的增长速率缓缓放缓[3],与算力需求存在极大各异,这也股东了芯片新本领以及异构算力的发展。以GPU、类脑芯片为代表的异构算力的崛起标明过去诡计数据将在最合适的场所,以最合适的算力来处理。同期,当单台处事器的算力无法知足业务需求时,可使用分散式老练的智算集群,通过多台处事器以及算法优化的并行神气构建出一个诡计本领和显存本领超大的集群,来唐突大模子老练中算力和内存的瓶颈。大模子老练一般选用并行形态,聚首集群的蚁集决定了智算节点征战间的通讯结尾,进而影响扫数这个词智算集群的算力性能和数据浑沌量,这对数据中心蚁集提议了新挑战,具体如下。
a)零丢包。智算集群对丢包十分敏锐,要是蚁集故障不可被快速定位并传递到终局进行源端举止适度,轻则需要回退到上一个分散式老练的断点进行重训,重则可能要将扫数这个词任务从零启动重训。0.1%的丢包会使算力性能下跌50%,1次老练中断会加多4 h的老练时长。因此,蚁集相识性对分散式老练任务相配重要,亦然刻下数据中心蚁集的最大短板。
b)低时延。传统TCP/IP蚁集结,发送端给摄取端发音信本体上是把发送端内存中的一段数据,通过数据中心蚁集传送到摄取端的内存中。不管是发送端照旧摄取端,在报文传输过程中王人需要调用CPU,复杂的报文处理历程使CPU显过劲不从心,同期变成节点间通讯时分变长。
c)大带宽。在并行诡计模子中,单个诡计节点完成诡计任务后,需要快速地将诡计结尾同步给其他节点,以便进行下一轮诡计;而在完成诡计结余数据同步前,诡计节点会一直处于恭候景况。在大模子并行诡计中,诡计节点之间同步的数据量相配大,况兼大部分是瞬时脉冲流量,要是蚁集带宽不及,数据传输就会变慢,进而影响老练结尾。
图片
0 2
智算中心组网本领推断
2.1 左券层——无损蚁集
插手径直内存探望(Remote Direct Memory Access,RDMA)不错使处事器径直高速读写其他处事器的内存数据,不需要经过操作系统/CPU/GPU的处理,成为科罚智算中心组网问题的优选决策。RDMA主要历程是本端处事器RDMA网卡从内存中拷贝用户空间数据到里面存储空间,通过网卡自己进行报文封装后,使用物理链路发送到对端处事器,对端处事器RDMA网卡摄取到报文后进行解封装,再将数据拷贝到内存的用户空间中,RDMA蚁集下处事器转发报文的旅途如图1所示。
图片
图1 RDMA蚁集下处事器转发报文的旅途
RDMA的主要上风包括2点。
a)零拷贝,即不需要在内核空间和用户空间之间重叠拷贝数据。
b)CPU/GPU卸载。由RDMA网卡达成报文封装妥协析,CPU/GPU芯片无需参与内存读写、报文处理等责任,减少对芯片的支出。
跟着AI大模子并行诡计对高可靠、低时延、大带宽蚁集需求的增长,RDMA缓缓在高性能数据中心中被实交运用。凭证Uber发布的测试数据,在128块GPU和25GE网卡的成就环境下,进行VGG-16模子(蚁集深度为16的卷积神经蚁集)老练时,使用RDMA的处感性能比使用TCP特出30%,因此RDMA成为智算中心蚁集的最好聘请之一。RDMA的主要达成决策如下。
a)InfiniBand(以下简称IB)左券。IB是一个完满的蚁集左券,它单独界说了1~4层的报文学式。基于credit信令机制,发送端在阐明摄取端有豪阔额度不错摄取对应数目的报文后,才会进行报文发送,从压根上幸免了报文在传输过程中从缓冲区溢出导致丢包的情况,达成了无损蚁集。IB在物理层界说了多种链路速率,举例1X、4X、12X,每种类型的链路使用四线串行差分聚首,蚁集带宽升级到了NDR(单速率为100 Gbit/s)、XDR(单速率为 200 Gbit/s)和GDR(单速率为400 Gbit/s)。此外,IB左券需使用专用的IB交换机、网卡和线缆。
b)RoCEv1。RDMA over Converged Ethernet是一种在以太网上进行RDMA的蚁集通讯左券,而RoCEv1左券保留了IB左券的运用技艺接口、传输层和蚁集层,将链路层和物理层替换为以太网左券。由于费力IP路由功能,RoCEv1数据包只可在二层蚁集结传输。
c)RoCEv2。RoCEv2将IB的蚁集层、链路层和物理层替换为以太网左券,将RDMA运用数据封装到UDP报文中,再加上IP、以太网报文头,使报文不错在以太网中进行传输,并通过基于优先级的流量适度(Priority-based Flow Control,PFC)、线路拥塞见告(Explicit Congestion Notification,ECN)等流控机制,保证发送端和摄取端速率匹配。RoCEv2通过频频的以太网交换机搭配支捏RoCEv2的网卡达成,但对征战性能挥霍较大。
d)iWARP。与RoCE左券秉承IB不同,iWARP自成一片,恪守IETF左券圭臬,表层包括RDMAP(为表层用户提供RDMA语义,相沿各种肯求)、DDP(正经在传输层左券之上达成零拷贝)、MPA(完成与TCP适配责任,按照一定算法在TCP流中加入适度信息)。iWARP底层基于TCP/IP左券,但需要支捏iWARP功能的零就逮卡征战。
现在业界比拟常用的RDMA达成决策是IB和RoCEv2,而RoCEv1和iWARP存在一些本领劣势,本体运用并不粗俗。本文将要点先容IB和RoCEv2决策。
2.2 蚁集架构
关于AI大模子的智算中心场景,需要特地眷注数据中心蚁集的传输时延和可彭胀性,传统的蚁集架构主要讨论其通用性,往往会捐躯部分性能。针对该问题,现在主流的蚁集架构有3种(见图2)。
图片
图2 智网中心蚁集架构表示
a)Fat-Tree。传统树形蚁集拓扑从叶子节点到根节点的带宽逐层敛迹,合座成倒漏斗状,根节点蚁集带宽远小于各叶子带宽之和,容易成为转发性能的瓶颈,无法知足大范围诡计的MapReduce和数据拷贝。而Fat-Tree拓扑的蚁集带宽是不敛迹的,即每个节点的上行带宽和下行带宽很是,支捏对接入带宽的线速转发,况兼在横向彭胀时支捏加多链路带宽。Fat-Tree拓扑中所使用的蚁集征战均为端口本领疏通的交换机,可有用镌汰蚁集诞生资本。
b)Torus。Torus是一种环面拓扑,它将节点按照网格的神气陈列,然后聚首同业和同列的相邻节点,并聚首同业和同列的最远端的2个节点,使得Torus拓扑中每行和每列王人是一个环。Torus拓扑通过从二维彭胀到三维、致使更高维的神气加多新的接入节点,同期不错提高蚁集带宽,镌汰延伸。
c)Dragonfly。Dragonfly是一种分层的拓扑结构,包括Switch、Group和System 3层,其中Switch层包括一台交换机和与其承接的多个诡计节点;Group层包含多个Switch,多个Switch间进行全聚首;System层包含多个Group,多个Group间也进行全聚首(拓扑中每个圆圈代表一个Group节点)。Dragonfly拓扑的主要上风是蚁集转发旅途小,组网资本较低。
2.3 蚁集运维管制
由于RDMA的左券机制和通讯神气与传统TCP/IP左券各异较大,智算中心高性能蚁集的运维管制神气也和IP蚁集存在很大各异,具体如下。
a)高精度的流量采集本领。AI大模子的流量呈现较强的突发性,旧例的SNMP左券以30 s的采样周期汇集流量数据,现已无法呈现蚁集的重要带宽主义。
b)细颗粒的流量统计本领。RDMA蚁集通过端口部队发送报文,因此需要将流量统计的维度从端口级别细化到部队级别。
c)自动化部署与检测本领。RDMA左券偏激出色的拥塞适度机制使得蚁集成就复杂千般化,而智算中心的超大范围进一步加多了成就复杂度,需要自动化成就器具和可快速定位故障的检测器具来升迁智算中心的运行结尾。
d)流控主义采集和统计本领。若选用RoCEv2达成RDMA,需要使用PFC和ECN机制进行流量适度,运维管制系统相应地需要对PFC、ECN等重要主义进行采集和统计。
图片
0 3
智算中心组网决策推断及建议
基于流控机制、蚁集时延、传输带宽等多个方面临IB决策和RoCEv2决策进行比拟(见表1)。在性能、彭胀性以及蚁集成就方面,IB蚁集占优,但资本较高,符合在高性能需求的场景中使用;而在资本、通达性、供应链方面,RoCEv2蚁集占优,建议在国产化算力资源池以及存储蚁集结使用,同期需增强RoCEv2蚁集的蚁集部署、调优及爱戴本领。
表1 InfiniBand和RoCEv2对比
图片
在组网架构方面,当蚁集范围较小(数千节点及以下)时,建议选用Fat-Tree。Fat-Tree拓扑具有蚁集直径短,端到端通讯跳数少,建网资本低的优点,适用于中小范围智算中心。当蚁集达到一定例模后,举例上万节点时,建议选用Dragonfly和Torus。Dragonfly和Torus拓扑的建网资本更低,交换机端到端转发跳数也会走漏减少,可升迁蚁集合座浑沌和性能,适用于大范围、超大范围智算中心。
现在,OpenAI、微软、Meta、特斯拉等海外厂商聘请使用IB决策组建智算中心,腾讯、阿里、字节进步等国内厂商使用RoCEv2决策,互助自研交换机、DPU加快卡、左券优化和智能运维器具等技巧来知足智算中心对高性能蚁集的需求,而百度、快手等厂商则聘请在不同蚁集平面分别使用IB和RoCEv2决策。
基于以上分析,可凭证决策将智算中心划成不同专区,各专分别别有5个蚁集平面。关于诡计网,IB算力专区可选用IB NDR(400G)组网,RoCEv2算力专区选用RoCEv2(200G)组网;存储网可讨论共用,同期,讨论到老练场景对存储的即时探望带宽并莫得诡计网高,2个专区的存储资源池不错共用;管制/业务网仍然选用传统以太蚁集;带外管制网使用千兆蚁聚集首扫数硬件征战。智网中心组网建议如图3所示。
图片
图3 智网中心组网建议
在组网架构方面,单台处事器最多支捏成就8张GPU卡,关于IB蚁集,基于现在IB交换机本领,2层Fat-Tree架构最多支捏2 048卡,如盘算推算超出2 048卡的范围,建议使用3层架构或选用彭胀性更强的Dragonfly、Torus拓扑。而RoCEv2基本选用Fat-Tree架构,可凭证组网范围聘请合适的交换机征战。
以往数据中心大多是诡计、存储、蚁集资源分别由不同正经东谈主进行爱戴管制,而在智算中心场景,算力的调动、性能优化与数据中心蚁集息息关系,其诞生运维过程需同步推断端到端的编排管制本领,达成算力与蚁集的协同优化管制。
图片
0 4
追念与瞻望
本文对智算中心组网需求与本领演进进行了关系推断分析,以期投砾引珠,得到同业群众的参与和磋议,共同股东蚁集重要本领的熟谙与落地,打造大范围、低时延、高性能、大带宽以及智能化的智算中心蚁集。
图片
参
考
文
献
[1]国度信息中心. 智能诡计中心转变发展指南[EB/OL].[2024-01-30]. http://scdrc.sic.gov.cn/SmarterCity/445/449/0113/10715.pdf
[2]IDC,波浪信息 . 2022-2023 中国东谈主工智能诡计力发展评估说明[EB/OL]. [2024-01-30]. https://www. doc88. com/p-99229765957589.html. [3] 郝俊慧 . 摩尔定律失效后,过去看“算力三定律”[N]. IT 时报,2022-07-22(6).
作家简介
图片
张世华,工程师,硕士,主要从事中枢网、通讯云商议、盘算推算和设想责任;
文湘江,高档工程师,硕士,主要从事通讯云架构设想、本领选型等责任;
申佳,助理工程师,学士,主要从事中枢网、通讯云商议、盘算推算和设想责任;
张奎,高档工程师,硕士,主要从事中枢网、通讯云商议、盘算推算和设想责任;
谭蓓,高档工程师,学士,主要从事中枢网、通讯云商议、盘算推算和设想责任;
刘俊通勾引 英文,毕业于电子科技大学,主要从事通讯蚁集的盘算推算与诞生责任。
本站仅提供存储处事,扫数内容均由用户发布,如发现存害或侵权内容,请点击举报。