您现在的位置是:首页 > 童真趣事童真趣事
EasyRoCE 工具上新:基于INT的流量路径预览
烟火之旅
2026-05-19
【童真趣事】
162人已围观
传统监控为何难以应对RoCE网络?
在当前的智算中心场景中,网络已成为影响模型训练效率的关键制约因素。特别是在高性能的 RoCE (RDMA over Converged Ethernet) 网络中,哪怕是微小的丢包或拥塞都会导致系统整体通信性能的显著下降。传统的网络运维与监控方式无法感知微秒级的延迟变化,导致工程师在面对性能瓶颈时往往无从下手。
什么是TPE?流量路径预览的核心技术
为了解决上述难题,星融元设计并实现了一款基于带内网络遥测(INT)技术的运维与监控工具——EasyRoCE-TPE(Traffic Path Explorer,流量路径预览)。该工具旨在为一线工程师提供决策优化的实用信息。
技术基石:星融元IPT带内网络遥测
TPE的实现基础是星融元交换机具备的一种名为 IPT(Inband Path Telemetry)的带内监控技术。IPT技术通过复制特定业务流量的报文,并携带流量经过的每一跳交换机的相关信息,从而获取端到端转发的统计数据。
TPE的工作原理:从探测到解析
当交换机启用IPT功能后,入节点(Ingress Node)会为原始数据包生成一个截断payload并携带探针标记(Probe Marker)的探测包。该探测包随业务流在网络中传输,并在出节点(Egress Node)按照三层路由发送给TPE服务器进行解析呈现。
TPE工具的核心优势:无侵入、容器化与可视化
- 无侵入部署:TPE独立部署于单独机器,不影响既有业务,也不会影响集群网络交换机。
- 容器化管理:整个工具以容器方式部署,不影响监控服务器上的其他服务。
- 直观可视化:用户通过图形化界面配置规则并查看拓扑,交换机状态信息一目了然。
如何部署与配置TPE实现深度网络监控?
基础设施蓝图规划(AID)
在部署前,需要在EasyRoCE-AID工具中按照真实拓扑规划添加交换机信息 。这包括设备名称(Hostname)、网络类型(计算/存储/管理)、设备角色(Spine/Leaf)以及管理地址。
在服务器上安装 TPE 工具
# 上传TPE的容器镜像到服务器中
scp tpe-v1.0.1.tgz root@10.240.3.5:/tmp/
# 导入镜像
docker load -i tpe-v1.0.1.tgz
# 运行容器
docker run -d --name=tpe --network host --privileged -v /tmp/tpe/data:/app/data tpe:v1.0.1
现在可以通过Grafana面板URL:http://10.240.3.5:3000/d/xxxxxx (示例) 来访问操作TPE。
访问和操作 TPE 工具
以上 TPE 配置页所呈现的效果,便于演示,此处我们已预先添加了一些交换机的 IPT 规则,实际使用时用户可在配置界面自行添加所需规则。
手动配置IPT规则
手动添加IPT规则需要遵循如下要求:
- 一条完整的业务路线需要按照实际拓扑添加入节点、传输节点以及出节点;
- 入节点需要添加业务进入的设备端口,出节点需要添加业务进入的端口以及INT地址;
- 所有设备的Switch ID唯一且同一链路的Probe Marker必须保持相同。
配置交换机角色:Ingress/Egress/Transit
【关键规则配置项说明】
手动配置规则时,需要确保以下核心要素:
- Switch ID:纯数字且全局唯一,必须与AID一致。
- Probe Marker:同一链路的Marker必须相同,最高2字节须为0。
- 触发模式(Trigger Mode):可选择全量概率采样或按DSCP过滤采样。
- 节点配置:一条完整的路径需包含入节点、传输节点和出节点,其中出节点需配置INT接口地址(Source IP)。
查看 TPE 可视化界面
完成配置后点击可视化按钮 Visual Interface 即可跳转报文解析页面。
此时可以看到根据之前配置的信息生成的一条IPT路径。
点击图上设备或者线路则能显示最新的IPT报文所展示的交换机的状态信息,下方则是 TPE 所解析的最新的 IPT 报文详情。
构建透明化的RoCE网络运维体系
通过 EasyRoCE-TPE,运维人员可以实时在可视化界面查看到最新的INT报文详情,包括每跳的延迟、队列占用等关键指标。这种基于TPE的流量路径预览技术,将原本“黑盒”的网络转发过程透明化,是构建高效率智算中心网络不可或缺的一环。
Tags:
热门文章
最近发表
- 【ESP32-C61】WT9932C61-TINY开发板规格书
- 《江南·十二场欢聚》:一部舞台剧的“戏剧振兴”实践
- Claude搅动硅谷 AI开始抢企业软件饭碗了?
- 沪指上涨0.38% 光伏设备、船舶制造领涨 贵金属板块持续重挫
- 东芝推出3kW 48V-12V双向DC-DC转换器参考设计
- 林孝埈晋级米兰冬奥会短道速滑男子1000米四分之一决赛
- RK817/RK809音频Codec停止播放杂音问题:内核驱动修复与技术解析
- 舞台剧《江南·十二场欢聚》首演:当名士气节遇见女性力量
- 做空软件股 对冲基金狂赚240亿美元
- 海航HU492飞往北京航班紧急返航 有乘客拍到飞机空中放油、挡风玻璃破裂 机型为波音787!
