123,123

AI超節(jié)點時代的交換機革命

2026-03-31 18:21

AI大模型參數(shù)規(guī)模持續(xù)增長，單卡算力與顯存的物理上限，正倒逼AI訓練集群規(guī)模持續(xù)擴容。在這場AI算力軍備競賽中，網絡性能早已成為決定集群算力釋放效率的關鍵。對于超大參數(shù)規(guī)模的AI模型而言，更高的網絡帶寬，能夠直接大幅壓縮模型訓練的完成周期。

AI算力釋放的技術底座：RDMA

要突破AI集群的網絡性能瓶頸，RDMA技術已成為行業(yè)公認的解決方案，而這一切的起點，源于GPU通用計算時代的通信瓶頸破局。

GPU Direct RDMA是2009年由Nvidia和Mellanox共同研發(fā)的軟硬件協(xié)同創(chuàng)新技術。當時GPU已經從圖形渲染轉向通用計算（GPGPU），成為HPC的核心加速器。GPU計算能力雖然在持續(xù)提升，但因為集群中不同節(jié)點之間的GPU間傳輸數(shù)據，仍需要CPU負責，通信存在瓶頸，所以GPU的計算能力的優(yōu)勢受其拖累不能完全發(fā)揮，從而導致集群整體效率不高。NVIDIA當時清晰地認識到必須解決這個問題，所以開始與合作伙伴Mellanox一起探索GPU與網卡的直接通信的解決方案GPU Direct over InfiniBand。后續(xù)該技術方案逐漸成熟，并于2012年隨Kepler架構GPU和CUDA 5.0一起發(fā)布，并被正式命名為GPU Direct RDMA。

在此之前，傳統(tǒng)數(shù)據中心的數(shù)據傳輸，始終受困于TCP/IP架構的原生缺陷。在傳統(tǒng)傳輸方案中，內存數(shù)據訪問與網絡數(shù)據傳輸分屬兩套語義集合，數(shù)據傳輸?shù)暮诵墓ぷ鞲叨纫蕾嘋PU：應用程序先申請資源、通知Socket，再由內核態(tài)驅動程序完成TCP/IP報文封裝，最終通過NIC網絡接口發(fā)送至對端。數(shù)據在發(fā)送節(jié)點需要依次經過Application Buffer、Socket Buffer、Transport Protocol buffer的多次拷貝，到達接收節(jié)點后，還要經過同等次數(shù)的反向內存拷貝，完成解封裝后才能寫入系統(tǒng)物理內存。

這種傳統(tǒng)傳輸方式，帶來了三個問題：一是多次內存拷貝導致傳輸時延居高不下；二是TCP/IP協(xié)議棧的報文封裝全靠驅動軟件完成，CPU負載極高，其性能直接成為傳輸帶寬、時延等性能的瓶頸；三是應用程序在用戶態(tài)與內核態(tài)之間的頻繁切換，進一步放大了數(shù)據傳輸?shù)臅r延與抖動，嚴重制約網絡傳輸性能。

RDMA（Remote Direct Memory Access，遠程直接內存訪問）技術，正是為破解上述痛點應運而生。它通過主機卸載與內核旁路技術，讓兩個應用程序能夠在網絡上實現(xiàn)可靠的直接內存到內存數(shù)據通信：應用程序發(fā)起數(shù)據傳輸后，由RNIC硬件直接訪問內存并將數(shù)據發(fā)送至網絡接口，接收節(jié)點的NIC則可將數(shù)據直接寫入應用程序內存，全程無需CPU與內核的深度介入。

憑借這些特性，RDMA已成為高性能計算、大數(shù)據存儲、機器學習等對低延遲、高帶寬、低CPU占用有嚴苛要求的領域，核心的互聯(lián)技術之一。而RDMA技術協(xié)議的標準化，也為不同廠商設備的互聯(lián)互通提供了統(tǒng)一規(guī)范，推動技術從概念走向規(guī)模化商用。目前，RDMA主流實現(xiàn)方案分為三類：InfiniBand協(xié)議、iWARP協(xié)議，以及RoCE協(xié)議（含RoCE v1與RoCE v2兩個版本）。

隨著AI模型參數(shù)從數(shù)十億級躍升至數(shù)萬億級，單GPU內存容量持續(xù)擴容的同時，服務器間的數(shù)據傳輸效率，已成為決定系統(tǒng)擴展能力、模型訓練目標能否實現(xiàn)的關鍵要素。RDMA技術的價值也愈發(fā)凸顯，能否高效訪問其他服務器的內存與資源，直接決定了系統(tǒng)的可擴展性，而直接訪問遠端內存的能力，能直接提升AI模型的整體訓練性能。正是借助RDMA技術，數(shù)據才能快速送抵GPU，最終有效縮短作業(yè)完成時間（Job Completion Time，簡稱JCT）。

InfiniBand和以太網之爭

在AI智算網絡的發(fā)展歷程中，機柜間互聯(lián)最早采用成熟的以太網方案，而隨著低時延需求的升級，InfiniBand憑借性能優(yōu)勢快速崛起。作為原生RDMA協(xié)議的代表，InfiniBand由NVIDIA子公司Mellanox主導推動，能提供低于2微秒的極低傳輸時延，同時實現(xiàn)零丟包，堪稱RDMA領域的性能領導者。

為了將InfiniBand的RDMA優(yōu)勢遷移至以太網生態(tài)，RoCE協(xié)議應運而生。其中RoCE v1僅能在二層子網內運行，而RoCE v2通過IP/UDP封裝實現(xiàn)了跨子網路由，大幅提升了部署靈活性，盡管約5微秒的時延仍高于原生InfiniBand，卻讓以太網具備了支撐AI訓練高帶寬、低延遲需求的能力。

為了撼動InfiniBand在AI領域的主導地位，2025年6月，博通、微軟、谷歌等行業(yè)巨頭聯(lián)合推出UEC 1.0規(guī)范，旨在重構以太網協(xié)議棧，使其性能逼近InfiniBand，標志著以太網對InfiniBand發(fā)起了全面反擊。超以太網聯(lián)盟（Ultra Ethernet Consortium，UEC）明確，UEC 1.0規(guī)范能在包含網卡、交換機、光纖、電纜組成的全網絡堆棧層級，提供高性能、可擴展、可互操作的解決方案，從而實現(xiàn)多供應商無縫集成，加速全生態(tài)創(chuàng)新。該規(guī)范不僅適配以太網與IP的現(xiàn)代RDMA能力，還支持數(shù)百萬級設備的端到端可擴展性，同時徹底規(guī)避了供應商鎖定的問題。

目前，阿里巴巴、百度、華為、騰訊等國內科技企業(yè)均已加入UEC聯(lián)盟，共同推進標準落地。除了參與全球標準化建設，國內企業(yè)還在同步研發(fā)自主可控的橫向擴展架構，均以低延遲、零丟包為核心目標，直接對標InfiniBand的性能表現(xiàn)。

從產業(yè)落地的維度來看，兩條技術路線的優(yōu)劣勢十分清晰。RoCE v2方案依托以太網架構，不僅具備RDMA高帶寬、低時延的傳輸性能，還擁有極強的設備互聯(lián)兼容性與適配性，部署靈活且成本優(yōu)勢顯著。相比InfiniBand，基于以太網的RDMA方案，在低成本、高可擴展性上擁有巨大優(yōu)勢。

網絡可用性直接決定GPU集群算力的穩(wěn)定性，而AI技術的爆發(fā)，正推動數(shù)據中心交換機向更高速率持續(xù)迭代。AI大模型參數(shù)量的指數(shù)級增長，帶來了算力需求的規(guī)�；嵘�，但大集群并不等同于大算力。為了壓縮訓練周期，大模型訓練普遍采用分布式訓練技術，而RDMA正是繞過操作系統(tǒng)內核、降低卡間通信時延的核心，目前主流落地的正是InfiniBand與RoCE v2兩大方案。其中InfiniBand方案時延更低，但成本偏高，且供應鏈高度集中于英偉達。根據Dell‘Oro Group的預測，到2027年，以太網在AI智算網絡的市場占比將正式超越InfiniBand。

超節(jié)點爆發(fā)，高端交換機迎來黃金發(fā)展期

隨著 AI 大模型參數(shù)規(guī)模邁入萬億量級，算力需求已從單純 GPU 堆疊，轉向全維度系統(tǒng)架構重構。受單芯片物理功耗密度、互連帶寬及內存容量瓶頸制約，算力增長邊際效益持續(xù)遞減。當前研究與工程實踐均表明，系統(tǒng)級協(xié)同架構（如高帶寬域互聯(lián)）是突破單芯片性能上限的主要技術路徑，其根本動因在于單芯片物理極限已成為制約算力發(fā)展的核心瓶頸。

當模型規(guī)模遠超單芯片算力與顯存容量，傳統(tǒng)分布式訓練面臨通信開銷激增、算力利用率大幅下滑等難題。在此背景下，依托高速無損互聯(lián)技術，將數(shù)十乃至上百顆 GPU 芯片邏輯整合為統(tǒng)一計算單元，形成對外等效的 “超級計算機”，已成為全球主流 AI 基礎設施廠商與科研機構公認的下一代算力架構突破方向。

AI 超節(jié)點的爆發(fā)，為交換機市場打開全新增量空間。相較于傳統(tǒng)服務器，AI 服務器新增 GPU 模組，需通過專用網卡與服務器、交換機實現(xiàn)高效互聯(lián)，完成節(jié)點間高速通信。這使得 AI 服務器組網在傳統(tǒng)架構基礎上，新增后端網絡（Back End）層級，單臺服務器網絡端口數(shù)量顯著提升，直接拉動高速交換機、網卡、光模塊、光纖光纜等全產業(yè)鏈需求。

與此同時，超節(jié)點規(guī)�；渴�，加速網絡架構橫向擴展（Scale out）。萬卡、十萬卡乃至百萬卡級別的超大集群組網，催生海量高速交換機需求。隨著 AI 模型參數(shù)持續(xù)擴容，集群規(guī)模從百卡、千卡級快速向萬卡、十萬卡級躍遷，推動組網架構從 2 層向 3 層、4 層持續(xù)演進，進一步放大高速交換機市場缺口。

全球AI產業(yè)的高速發(fā)展，讓AI集群網絡對組網架構、網絡帶寬、網絡時延提出了前所未有的嚴苛要求，也推動以太網交換機這一核心通信設備，朝著高速率、多端口、白盒化、光交換機等方向持續(xù)迭代升級。而以太網本身深厚的產業(yè)根基與龐大的生態(tài)廠商陣容，也讓其在AI網絡中的市場占比擁有持續(xù)提升的空間。盡管目前InfiniBand憑借低延遲、擁塞控制、自適應路由等機制，仍主導著AI后端網絡市場，但隨著以太網部署方案的持續(xù)優(yōu)化，以及超以太網聯(lián)盟的生態(tài)加速完善，未來以太網方案的市場占比將持續(xù)攀升，直接帶動以太網交換機的需求增長。

全行業(yè)入局，國內外廠商搶灘AI交換機賽道

AI交換機的巨大市場機遇，吸引了全球科技巨頭與國內廠商的全面布局，從芯片到整機、從傳統(tǒng)設備商到互聯(lián)網企業(yè)，一場圍繞AI交換機的技術與市場爭奪戰(zhàn)已然打響。

國際巨頭中，英偉達的布局最為激進。其推出的Spectrum-x平臺，是一套專為超大規(guī)模集群場景優(yōu)化的以太網方案，憑借這一產品，英偉達僅用不到三年時間，便在交換機這一傳統(tǒng)IT賽道實現(xiàn)了跨界突破。同時，英偉達已將下一代Rubin AI平臺全面轉向CPO（共封裝光學）架構，并宣布進入量產階段，讓CPO從實驗室概念，正式成為未來AI數(shù)據中心的“標準配置”。

博通也在去年推出了全球首款102.4 Tbps 交換機芯片 Tomahawk 6。該系列單芯片提供 102.4 Tbps 的交換容量，是目前市場上以太網交換機帶寬的兩倍。Tomahawk 6 專為下一代可擴展和可擴展 AI 網絡而設計，通過支持 100G / 200G SerDes 和共封裝光學模塊（CPO），提供更高的靈活性。它提供業(yè)界最全面的 AI 路由功能和互連選項，旨在滿足擁有超過一百萬個 XPUs 的 AI 集群的需求。

國內傳統(tǒng)設備廠商也快速跟進，接連推出旗艦級產品。

華為于2025年發(fā)布了兩款旗艦產品：業(yè)界最高密的128×800GE 100T盒式以太交換機CloudEngine XH9330，憑借行業(yè)領先的高密端口設計，突破了AI集群的規(guī)模上限；業(yè)界首款128×400GE 51.2T液冷盒式以太交換機CloudEngine XH9230，助力企業(yè)打造綠色節(jié)能、超大規(guī)模的全液冷算力集群。

紫光股份旗下新華三，于2024年率先發(fā)布1.6T智算交換機H3C S98258C-G，支持全光網絡3.0解決方案，單端口速率突破1.6T，整機交換容量達204.8T，可滿足3.2萬臺AIGC節(jié)點的通信需求。該產品搭載自研智算引擎，時延可低至0.3微秒，通過了谷歌等國際客戶的驗證，成為其OCS整機核心供應商。此外，公司還推出了全球首款51.2T 800G CPO硅光數(shù)據中心交換機，為1.6T產品的技術迭代奠定了基礎。

銳捷網絡完成了基于CPO技術的51.2T交換機商用互聯(lián)方案演示，該方案憑借超高集成度、顯著的能效提升與可維護性設計，完美適配AI訓練及超大規(guī)模計算集群的高速互聯(lián)需求，為未來800G和1.6T網絡升級提供了可行路徑。其51.2T CPO交換機采用博通Bailly 51.2Tbps CPO芯片，在4RU空間內實現(xiàn)了128個400G FR4光交換端口，大幅提升了設備端口密度與帶寬容量，核心亮點在于通過光引擎與交換芯片的共封裝，大幅縮短電互聯(lián)路徑，降低信號衰減與傳輸功耗。

中興通訊推出了國產超高密度230.4T框式交換機，以及全系列51.2T/12.8T盒式交換機，性能處于行業(yè)領先水平，已在運營商、互聯(lián)網、金融等領域的百/千/萬卡智算集群實現(xiàn)規(guī)模商用。

除了傳統(tǒng)交換機廠商，互聯(lián)網企業(yè)也紛紛下場，開啟了自研交換機的進程，成為賽道中不可忽視的重要力量。

騰訊早在2022年便啟動了CPO交換機的研發(fā)，同年推出并點亮業(yè)界首款25.6T CPO數(shù)據中心交換機——Gemini。該產品集成12.8T光引擎，提供16個800G光接口，剩余12.8T交換容量通過面板32個QSFP112可插拔接口提供。

字節(jié)跳動在火山引擎正式上線102.4T自研交換機，以此支撐新一代HPN 6.0架構，可滿足十萬卡級GPU集群的高效互聯(lián)需求。該交換機實現(xiàn)全端口LPO支持，在4U空間內部署了128個800G OSFP端口。

阿里巴巴在云棲大會展出了自研的102.4T國產交換機，率先將3.2T NPO技術應用于新一代國產四芯片交換機。該設備單機集成4顆25.6T國產交換芯片，總交換容量達102.4T，還可通過升級至4×102.4T芯片，平滑演進至409.6T平臺。

相比線性驅動可插拔光模塊（LPO），近封裝光學（NPO）能提供更高的帶寬密度，同時降低對主芯片SerDes性能的要求，更利于產業(yè)生態(tài)發(fā)展；而相比共封裝光學（CPO），NPO采用標準LGA連接器，保留了光模塊的開放解耦特性，避免了主芯片與光引擎的綁定，更易被終端用戶采納。

為什么互聯(lián)網企業(yè)要做交換機？

互聯(lián)網企業(yè)紛紛下場自研交換機，并非偶然，而是技術趨勢與市場需求的共同驅動。

技術層面，交換機白盒化的發(fā)展，為互聯(lián)網企業(yè)自研提供了基礎。白盒交換機實現(xiàn)了硬件與軟件的解耦，硬件由開放化組件構成，軟件則可由用戶或第三方自由選擇、定制，具備高靈活性、高可擴展性、低采購與運維成本的優(yōu)勢，目前已在互聯(lián)網廠商與運營商網絡中廣泛應用，產業(yè)生態(tài)日趨成熟。銳捷網絡作為白盒交換機領域的早期布局者，便與阿里、騰訊、字節(jié)跳動等互聯(lián)網企業(yè)深度合作，通過JDM（聯(lián)合設計制造）模式參與下一代交換機研發(fā)，2024年接連中標多家頭部互聯(lián)網客戶的研發(fā)標，推動白盒交換機在互聯(lián)網數(shù)據中心的規(guī)�；渴�。而白盒交換機的軟硬件解耦特性，大幅降低了自研的技術門檻，也成為大型互聯(lián)網企業(yè)降低建網成本的關鍵。

市場層面，超大規(guī)模數(shù)據中心運營商面臨著與傳統(tǒng)企業(yè)完全不同的網絡需求：一方面，阿里、騰訊、字節(jié)等企業(yè)擁有數(shù)萬甚至數(shù)十萬級的服務器規(guī)模，對網絡的可擴展性、可運維性有極致要求；另一方面，AI訓練集群尤其是萬卡級GPU集群，對網絡的低延遲、高帶寬有著嚴苛的定制化需求。傳統(tǒng)交換機廠商提供的標準化產品，難以完全匹配這些個性化、極致化的業(yè)務需求，最終促使互聯(lián)網企業(yè)走向自研之路。

而自研交換機不僅能深度適配自身業(yè)務場景，實現(xiàn)網絡能力的定制化優(yōu)化，又能大幅降低集群建設的總體擁有成本（TCO），在AI算力軍備競賽中，掌握網絡底層能力的主動權。

原文標題 : AI超節(jié)點時代的交換機革命