訂閱
糾錯
加入自媒體

AI超節(jié)點時代的交換機革命

圖片

AI大模型參數(shù)規(guī)模持續(xù)增長,單卡算力與顯存的物理上限,正倒逼AI訓練集群規(guī)模持續(xù)擴容。在這場AI算力軍備競賽中,網絡性能早已成為決定集群算力釋放效率的關鍵。對于超大參數(shù)規(guī)模的AI模型而言,更高的網絡帶寬,能夠直接大幅壓縮模型訓練的完成周期。

01

AI算力釋放的技術底座:RDMA

要突破AI集群的網絡性能瓶頸,RDMA技術已成為行業(yè)公認的解決方案,而這一切的起點,源于GPU通用計算時代的通信瓶頸破局。

GPU Direct RDMA是2009年由Nvidia和Mellanox共同研發(fā)的軟硬件協(xié)同創(chuàng)新技術。當時GPU已經從圖形渲染轉向通用計算(GPGPU),成為HPC的核心加速器。GPU計算能力雖然在持續(xù)提升,但因為集群中不同節(jié)點之間的GPU間傳輸數(shù)據,仍需要CPU負責,通信存在瓶頸,所以GPU的計算能力的優(yōu)勢受其拖累不能完全發(fā)揮,從而導致集群整體效率不高。NVIDIA當時清晰地認識到必須解決這個問題,所以開始與合作伙伴Mellanox一起探索GPU與網卡的直接通信的解決方案GPU Direct over InfiniBand。后續(xù)該技術方案逐漸成熟,并于2012年隨Kepler架構GPU和CUDA 5.0一起發(fā)布,并被正式命名為GPU Direct RDMA。

在此之前,傳統(tǒng)數(shù)據中心的數(shù)據傳輸,始終受困于TCP/IP架構的原生缺陷。在傳統(tǒng)傳輸方案中,內存數(shù)據訪問與網絡數(shù)據傳輸分屬兩套語義集合,數(shù)據傳輸?shù)暮诵墓ぷ鞲叨纫蕾嘋PU:應用程序先申請資源、通知Socket,再由內核態(tài)驅動程序完成TCP/IP報文封裝,最終通過NIC網絡接口發(fā)送至對端。數(shù)據在發(fā)送節(jié)點需要依次經過Application Buffer、Socket Buffer、Transport Protocol buffer的多次拷貝,到達接收節(jié)點后,還要經過同等次數(shù)的反向內存拷貝,完成解封裝后才能寫入系統(tǒng)物理內存。

這種傳統(tǒng)傳輸方式,帶來了三個問題:一是多次內存拷貝導致傳輸時延居高不下;二是TCP/IP協(xié)議棧的報文封裝全靠驅動軟件完成,CPU負載極高,其性能直接成為傳輸帶寬、時延等性能的瓶頸;三是應用程序在用戶態(tài)與內核態(tài)之間的頻繁切換,進一步放大了數(shù)據傳輸?shù)臅r延與抖動,嚴重制約網絡傳輸性能。

RDMA(Remote Direct Memory Access,遠程直接內存訪問)技術,正是為破解上述痛點應運而生。它通過主機卸載與內核旁路技術,讓兩個應用程序能夠在網絡上實現(xiàn)可靠的直接內存到內存數(shù)據通信:應用程序發(fā)起數(shù)據傳輸后,由RNIC硬件直接訪問內存并將數(shù)據發(fā)送至網絡接口,接收節(jié)點的NIC則可將數(shù)據直接寫入應用程序內存,全程無需CPU與內核的深度介入。

憑借這些特性,RDMA已成為高性能計算、大數(shù)據存儲、機器學習等對低延遲、高帶寬、低CPU占用有嚴苛要求的領域,核心的互聯(lián)技術之一。而RDMA技術協(xié)議的標準化,也為不同廠商設備的互聯(lián)互通提供了統(tǒng)一規(guī)范,推動技術從概念走向規(guī)模化商用。目前,RDMA主流實現(xiàn)方案分為三類:InfiniBand協(xié)議、iWARP協(xié)議,以及RoCE協(xié)議(含RoCE v1與RoCE v2兩個版本)。

隨著AI模型參數(shù)從數(shù)十億級躍升至數(shù)萬億級,單GPU內存容量持續(xù)擴容的同時,服務器間的數(shù)據傳輸效率,已成為決定系統(tǒng)擴展能力、模型訓練目標能否實現(xiàn)的關鍵要素。RDMA技術的價值也愈發(fā)凸顯,能否高效訪問其他服務器的內存與資源,直接決定了系統(tǒng)的可擴展性,而直接訪問遠端內存的能力,能直接提升AI模型的整體訓練性能。正是借助RDMA技術,數(shù)據才能快速送抵GPU,最終有效縮短作業(yè)完成時間(Job Completion Time,簡稱JCT)。

02

InfiniBand和以太網之爭

在AI智算網絡的發(fā)展歷程中,機柜間互聯(lián)最早采用成熟的以太網方案,而隨著低時延需求的升級,InfiniBand憑借性能優(yōu)勢快速崛起。作為原生RDMA協(xié)議的代表,InfiniBand由NVIDIA子公司Mellanox主導推動,能提供低于2微秒的極低傳輸時延,同時實現(xiàn)零丟包,堪稱RDMA領域的性能領導者。

圖片

為了將InfiniBand的RDMA優(yōu)勢遷移至以太網生態(tài),RoCE協(xié)議應運而生。其中RoCE v1僅能在二層子網內運行,而RoCE v2通過IP/UDP封裝實現(xiàn)了跨子網路由,大幅提升了部署靈活性,盡管約5微秒的時延仍高于原生InfiniBand,卻讓以太網具備了支撐AI訓練高帶寬、低延遲需求的能力。

為了撼動InfiniBand在AI領域的主導地位,2025年6月,博通、微軟、谷歌等行業(yè)巨頭聯(lián)合推出UEC 1.0規(guī)范,旨在重構以太網協(xié)議棧,使其性能逼近InfiniBand,標志著以太網對InfiniBand發(fā)起了全面反擊。超以太網聯(lián)盟(Ultra Ethernet Consortium,UEC)明確,UEC 1.0規(guī)范能在包含網卡、交換機、光纖、電纜組成的全網絡堆棧層級,提供高性能、可擴展、可互操作的解決方案,從而實現(xiàn)多供應商無縫集成,加速全生態(tài)創(chuàng)新。該規(guī)范不僅適配以太網與IP的現(xiàn)代RDMA能力,還支持數(shù)百萬級設備的端到端可擴展性,同時徹底規(guī)避了供應商鎖定的問題。

目前,阿里巴巴、百度、華為、騰訊等國內科技企業(yè)均已加入UEC聯(lián)盟,共同推進標準落地。除了參與全球標準化建設,國內企業(yè)還在同步研發(fā)自主可控的橫向擴展架構,均以低延遲、零丟包為核心目標,直接對標InfiniBand的性能表現(xiàn)。

從產業(yè)落地的維度來看,兩條技術路線的優(yōu)劣勢十分清晰。RoCE v2方案依托以太網架構,不僅具備RDMA高帶寬、低時延的傳輸性能,還擁有極強的設備互聯(lián)兼容性與適配性,部署靈活且成本優(yōu)勢顯著。相比InfiniBand,基于以太網的RDMA方案,在低成本、高可擴展性上擁有巨大優(yōu)勢。

網絡可用性直接決定GPU集群算力的穩(wěn)定性,而AI技術的爆發(fā),正推動數(shù)據中心交換機向更高速率持續(xù)迭代。AI大模型參數(shù)量的指數(shù)級增長,帶來了算力需求的規(guī);嵘,但大集群并不等同于大算力。為了壓縮訓練周期,大模型訓練普遍采用分布式訓練技術,而RDMA正是繞過操作系統(tǒng)內核、降低卡間通信時延的核心,目前主流落地的正是InfiniBand與RoCE v2兩大方案。其中InfiniBand方案時延更低,但成本偏高,且供應鏈高度集中于英偉達。根據Dell‘Oro Group的預測,到2027年,以太網在AI智算網絡的市場占比將正式超越InfiniBand。

03

超節(jié)點爆發(fā),高端交換機迎來黃金發(fā)展期

隨著 AI 大模型參數(shù)規(guī)模邁入萬億量級,算力需求已從單純 GPU 堆疊,轉向全維度系統(tǒng)架構重構。受單芯片物理功耗密度、互連帶寬及內存容量瓶頸制約,算力增長邊際效益持續(xù)遞減。當前研究與工程實踐均表明,系統(tǒng)級協(xié)同架構(如高帶寬域互聯(lián))是突破單芯片性能上限的主要技術路徑,其根本動因在于單芯片物理極限已成為制約算力發(fā)展的核心瓶頸。

當模型規(guī)模遠超單芯片算力與顯存容量,傳統(tǒng)分布式訓練面臨通信開銷激增、算力利用率大幅下滑等難題。在此背景下,依托高速無損互聯(lián)技術,將數(shù)十乃至上百顆 GPU 芯片邏輯整合為統(tǒng)一計算單元,形成對外等效的 “超級計算機”,已成為全球主流 AI 基礎設施廠商與科研機構公認的下一代算力架構突破方向。

AI 超節(jié)點的爆發(fā),為交換機市場打開全新增量空間。相較于傳統(tǒng)服務器,AI 服務器新增 GPU 模組,需通過專用網卡與服務器、交換機實現(xiàn)高效互聯(lián),完成節(jié)點間高速通信。這使得 AI 服務器組網在傳統(tǒng)架構基礎上,新增后端網絡(Back End)層級,單臺服務器網絡端口數(shù)量顯著提升,直接拉動高速交換機、網卡、光模塊、光纖光纜等全產業(yè)鏈需求。

與此同時,超節(jié)點規(guī);渴,加速網絡架構橫向擴展(Scale out)。萬卡、十萬卡乃至百萬卡級別的超大集群組網,催生海量高速交換機需求。隨著 AI 模型參數(shù)持續(xù)擴容,集群規(guī)模從百卡、千卡級快速向萬卡、十萬卡級躍遷,推動組網架構從 2 層向 3 層、4 層持續(xù)演進,進一步放大高速交換機市場缺口。

全球AI產業(yè)的高速發(fā)展,讓AI集群網絡對組網架構、網絡帶寬、網絡時延提出了前所未有的嚴苛要求,也推動以太網交換機這一核心通信設備,朝著高速率、多端口、白盒化、光交換機等方向持續(xù)迭代升級。而以太網本身深厚的產業(yè)根基與龐大的生態(tài)廠商陣容,也讓其在AI網絡中的市場占比擁有持續(xù)提升的空間。盡管目前InfiniBand憑借低延遲、擁塞控制、自適應路由等機制,仍主導著AI后端網絡市場,但隨著以太網部署方案的持續(xù)優(yōu)化,以及超以太網聯(lián)盟的生態(tài)加速完善,未來以太網方案的市場占比將持續(xù)攀升,直接帶動以太網交換機的需求增長。

04

全行業(yè)入局,國內外廠商搶灘AI交換機賽道

AI交換機的巨大市場機遇,吸引了全球科技巨頭與國內廠商的全面布局,從芯片到整機、從傳統(tǒng)設備商到互聯(lián)網企業(yè),一場圍繞AI交換機的技術與市場爭奪戰(zhàn)已然打響。

國際巨頭中,英偉達的布局最為激進。其推出的Spectrum-x平臺,是一套專為超大規(guī)模集群場景優(yōu)化的以太網方案,憑借這一產品,英偉達僅用不到三年時間,便在交換機這一傳統(tǒng)IT賽道實現(xiàn)了跨界突破。同時,英偉達已將下一代Rubin AI平臺全面轉向CPO(共封裝光學)架構,并宣布進入量產階段,讓CPO從實驗室概念,正式成為未來AI數(shù)據中心的“標準配置”。

博通也在去年推出了全球首款102.4 Tbps 交換機芯片 Tomahawk 6。該系列單芯片提供 102.4 Tbps 的交換容量,是目前市場上以太網交換機帶寬的兩倍。Tomahawk 6 專為下一代可擴展和可擴展 AI 網絡而設計,通過支持 100G / 200G SerDes 和共封裝光學模塊(CPO),提供更高的靈活性。它提供業(yè)界最全面的 AI 路由功能和互連選項,旨在滿足擁有超過一百萬個 XPUs 的 AI 集群的需求。

國內傳統(tǒng)設備廠商也快速跟進,接連推出旗艦級產品。

華為于2025年發(fā)布了兩款旗艦產品:業(yè)界最高密的128×800GE 100T盒式以太交換機CloudEngine XH9330,憑借行業(yè)領先的高密端口設計,突破了AI集群的規(guī)模上限;業(yè)界首款128×400GE 51.2T液冷盒式以太交換機CloudEngine XH9230,助力企業(yè)打造綠色節(jié)能、超大規(guī)模的全液冷算力集群。

紫光股份旗下新華三,于2024年率先發(fā)布1.6T智算交換機H3C S98258C-G,支持全光網絡3.0解決方案,單端口速率突破1.6T,整機交換容量達204.8T,可滿足3.2萬臺AIGC節(jié)點的通信需求。該產品搭載自研智算引擎,時延可低至0.3微秒,通過了谷歌等國際客戶的驗證,成為其OCS整機核心供應商。此外,公司還推出了全球首款51.2T 800G CPO硅光數(shù)據中心交換機,為1.6T產品的技術迭代奠定了基礎。

銳捷網絡完成了基于CPO技術的51.2T交換機商用互聯(lián)方案演示,該方案憑借超高集成度、顯著的能效提升與可維護性設計,完美適配AI訓練及超大規(guī)模計算集群的高速互聯(lián)需求,為未來800G和1.6T網絡升級提供了可行路徑。其51.2T CPO交換機采用博通Bailly 51.2Tbps CPO芯片,在4RU空間內實現(xiàn)了128個400G FR4光交換端口,大幅提升了設備端口密度與帶寬容量,核心亮點在于通過光引擎與交換芯片的共封裝,大幅縮短電互聯(lián)路徑,降低信號衰減與傳輸功耗。

中興通訊推出了國產超高密度230.4T框式交換機,以及全系列51.2T/12.8T盒式交換機,性能處于行業(yè)領先水平,已在運營商、互聯(lián)網、金融等領域的百/千/萬卡智算集群實現(xiàn)規(guī)模商用。

除了傳統(tǒng)交換機廠商,互聯(lián)網企業(yè)也紛紛下場,開啟了自研交換機的進程,成為賽道中不可忽視的重要力量。

騰訊早在2022年便啟動了CPO交換機的研發(fā),同年推出并點亮業(yè)界首款25.6T CPO數(shù)據中心交換機——Gemini。該產品集成12.8T光引擎,提供16個800G光接口,剩余12.8T交換容量通過面板32個QSFP112可插拔接口提供。

字節(jié)跳動在火山引擎正式上線102.4T自研交換機,以此支撐新一代HPN 6.0架構,可滿足十萬卡級GPU集群的高效互聯(lián)需求。該交換機實現(xiàn)全端口LPO支持,在4U空間內部署了128個800G OSFP端口。

阿里巴巴在云棲大會展出了自研的102.4T國產交換機,率先將3.2T NPO技術應用于新一代國產四芯片交換機。該設備單機集成4顆25.6T國產交換芯片,總交換容量達102.4T,還可通過升級至4×102.4T芯片,平滑演進至409.6T平臺。

相比線性驅動可插拔光模塊(LPO),近封裝光學(NPO)能提供更高的帶寬密度,同時降低對主芯片SerDes性能的要求,更利于產業(yè)生態(tài)發(fā)展;而相比共封裝光學(CPO),NPO采用標準LGA連接器,保留了光模塊的開放解耦特性,避免了主芯片與光引擎的綁定,更易被終端用戶采納。

05

為什么互聯(lián)網企業(yè)要做交換機?

互聯(lián)網企業(yè)紛紛下場自研交換機,并非偶然,而是技術趨勢與市場需求的共同驅動。

技術層面,交換機白盒化的發(fā)展,為互聯(lián)網企業(yè)自研提供了基礎。白盒交換機實現(xiàn)了硬件與軟件的解耦,硬件由開放化組件構成,軟件則可由用戶或第三方自由選擇、定制,具備高靈活性、高可擴展性、低采購與運維成本的優(yōu)勢,目前已在互聯(lián)網廠商與運營商網絡中廣泛應用,產業(yè)生態(tài)日趨成熟。銳捷網絡作為白盒交換機領域的早期布局者,便與阿里、騰訊、字節(jié)跳動等互聯(lián)網企業(yè)深度合作,通過JDM(聯(lián)合設計制造)模式參與下一代交換機研發(fā),2024年接連中標多家頭部互聯(lián)網客戶的研發(fā)標,推動白盒交換機在互聯(lián)網數(shù)據中心的規(guī);渴。而白盒交換機的軟硬件解耦特性,大幅降低了自研的技術門檻,也成為大型互聯(lián)網企業(yè)降低建網成本的關鍵。

市場層面,超大規(guī)模數(shù)據中心運營商面臨著與傳統(tǒng)企業(yè)完全不同的網絡需求:一方面,阿里、騰訊、字節(jié)等企業(yè)擁有數(shù)萬甚至數(shù)十萬級的服務器規(guī)模,對網絡的可擴展性、可運維性有極致要求;另一方面,AI訓練集群尤其是萬卡級GPU集群,對網絡的低延遲、高帶寬有著嚴苛的定制化需求。傳統(tǒng)交換機廠商提供的標準化產品,難以完全匹配這些個性化、極致化的業(yè)務需求,最終促使互聯(lián)網企業(yè)走向自研之路。

而自研交換機不僅能深度適配自身業(yè)務場景,實現(xiàn)網絡能力的定制化優(yōu)化,又能大幅降低集群建設的總體擁有成本(TCO),在AI算力軍備競賽中,掌握網絡底層能力的主動權。

       原文標題 : AI超節(jié)點時代的交換機革命

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號