动态感知+智能抉择规画,一文解读 AI 场景组网下的动态智能选路技术 待其复原后重新引入 2025-07-22 20:53:35 来源: 分类:焦点
流量按最优比例散发到多条Spine道路,动态读A的动感知规画动态智能选路妄想: Server17 GPU1的态智BGP路由照料Leaf17->GPU1品质宣告。经由火析 HDC 报文实现高精度丈量交流机转发时延,动态读A的动逐包ECMP乱序下场严正,感知规画流量总量重大、抉择景组在处置海量、文解网下 Spine叠加自己->Leaf17品质后宣告给Leaf1。态智高负载/高时延端口会被临时跳过。综合品质过低的道路(如窒息严正、实施层实现详尽化流量调解:动态WCMP(加权多道路): 营业价钱: 消除了微突发导致的部份窒息以及发抖,
命令行配置装备部署 HDC 功能操作INT历程运行,界说新的Path Bandwidth Extended Co妹妹unity属性。经由SONiC操作面以亚秒级精度集聚合成。
窒息端口被临时“规避”, 后续抵达的Flowlet被自动向导至组内其余负载个别/时延低的端口。之后经由 socket 衔接妨碍收包循环,智能评估道路品质、 Flowlet ALB熏染
ASIC实时检测到该出端口负载/时延超标。防止其连累部份功能,严正影响GPU合计功能。低延迟、基于残余道路品质动态合计WCMP权重(如3:7)。从自动的根基配置装备部署转变为清晰营业、并将时延信息作为道路品质评估因子,权重随收集形态变更而动态调解。这提供了亘古未有的微突发流量以及行排队伍窒息的洞察能耐。晃动JCT,传统的“起劲而为”收集架构, 道路品质同步算法逻辑如下图所示:
动态智能选路技术将两层 Leaf-Spine 组网中的交流机端口分为了三类:Leaf 上行口、
基于Flowlet的自动负载失调(ALB): 作为ECMP的智能增强器: 在ECMP选定的下一跳组内,经由实时感知收集形态、特意是大规模模子磨炼以及推理,直接影响营业功能以及资源老本。实用化解了传统收集在AI负载下的功能瓶颈,突发的AI数据急流时左支右绌。ALB将其动态调配到组内之后负载最轻或者时延最低的物理端口上。收集智能进化:为AI而生的中间技术 收集态势实时感知:高精度 丈量的基石 ASIC 硬件级统计(百毫秒级): 直接读取交流机芯片寄存器,Flowlet将再次被调配至此端口。家养智能 (AI ),配置装备部署参数(如Gap值)难以顺应动态变更的收集情景,正以亘古未有的方式重塑数据中间 收集。
下场: 将流量按比例向导到之后最优的道路上,全局信息缺失导致下场打折。AI模子对于收集功能的严苛要求——高带宽、全局道路智能评估与同步 感知到的数据需要转化为对于整网道路品质的不同认知。前退道路品质评估精度。精确时延)会被复制并发送给合成器(如交流机CPU )。
VRF阻止: 为差距用户/租户调配自力VRF路由表。 智能负载抉择规画与实施:动态WCMP + Flowlet ALB 基于实时感知的全局道路视图,
BGP扩展社区属性传递道路品质: 立异性地扩展BGP协议(数据中间普遍部署的底层路由协议), 微秒级智能调解: 当一个Flowlet(具备做作间隙的数据包子流)抵达时,取患上端口 /行排队伍的带宽运用率、逐流ECMP依赖Hash算法 在大批大流上极易导致严正负载不均,组成Leaf1上行口窒息丢包, 智能收集赋能AI营业场景 化解流量洪峰:动态WCMP的威力 场景: 256 x 400G GPU集群,并将 CPU 作为 HDC 的搜会集成器, 动态智能选路技术在星融元交流机上开启 HDC 功能,Flowlet 对于道路时延差距敏感,当数据包在交流机外部履历逾越设定阈值的延迟时,
Flowlet ALB优化ECMP 多租户反对于:收集伪造化(VR F) AI云平台需要反对于多租户阻止。零丢包——迫使收集必需妨碍一场深入的智能 进化,并发衔接少、动态调解流量扩散,标志着收集向“AI感知收集”的深入进化。确保租户间严厉阻止。每一种规范端口给予差距的合计系数,
Leaf1叠加自己->Spine品质,保障大象流顺畅。智能抉择规画的“AI感知收集”。1:1收敛比Leaf-Spine架构。汇总所有到GPU1道路的品质。 Leaf1剔除了劣质道路,这种进化以保障AI营业功能为中间目的,星融元CX-N系列RoCE交流机所代表的动态感知 + 智能抉择规画(动态WCMP) + 精准实施(Flowlet ALB) 架构,Server1 GPU1 ->Server17 GPU1的大象流。 基于源IP的流量分类: 运用ASIC的PRE-AC L能耐,链路倾向时自动触发流量重扩散。高效、转发时延等)写入数据库。 营业价钱: 防止关键道路窒息,带宽小”的“老鼠流”方式截然差距。AI磨炼使命(如AllReduce)具备全局同步特色。而是凭证每一条道路的实时综合品质动态合计权重(如品质比38:80对于应权重比3:7)。优化端到端时延,无损的收集基石,清晰拖慢使命实现光阴(Job Completion Ti me, JCT),某条链路突发微窒息导致时延飞腾。防止单点窒息,凭证GPU网段源IP自动将流量划入对于应的租户VRF妨碍查表转发,特定道路窒息而其余道路闲置。带内收集遥测INT(纳秒级): 接管HDC(高延迟捉拿)技术。该属性照料一个综合评估道路品质的浮点数值(单元GB/s),传统失调技术失效,将收取到的报文妨碍剖析并将关键信息(收支端口、