無(wú)光不AI:AI算力,向光而逐
在全球人工智能大會(huì)WAIC2025上,AI智算中心超節(jié)點(diǎn)無(wú)疑是最火爆的話(huà)題。各家都在發(fā)布自己的超節(jié)點(diǎn)方案,其中華為昇騰384超節(jié)點(diǎn)作為官方認(rèn)證鎮(zhèn)館之寶,成為各大媒體、國(guó)內(nèi)外觀(guān)眾的必打卡點(diǎn)之一。
在大模型時(shí)代,AI算力必須肩負(fù)起大規(guī)模并行計(jì)算的任務(wù)。依托單卡完成的AI計(jì)算必須走向集群化計(jì)算。產(chǎn)業(yè)界正在發(fā)生從萬(wàn)卡集群向十萬(wàn)卡集群演進(jìn)的趨勢(shì)。而大規(guī)模AI集群,必須使用光互聯(lián)方案。隨著AI計(jì)算集群規(guī)模越來(lái)越大,性能越來(lái)越高,散熱和供電等問(wèn)題會(huì)非常棘手。以光纖完成的光互聯(lián)可以減少線(xiàn)纜的利用,降低散熱、供電等方面的需求?梢哉f(shuō),光互聯(lián)是大規(guī)模AI集群組網(wǎng)的必選方案。
昇騰384超節(jié)點(diǎn)就是選擇了光互聯(lián)之路,才能馴服如此龐大的AI巨獸。昇騰384超節(jié)點(diǎn)采用了384顆昇騰NPU,用到了總長(zhǎng)度達(dá)到316公里的3168根光纖,通過(guò)6912個(gè)星云光模塊實(shí)現(xiàn)NPU全MESH互聯(lián)。如此規(guī)模的光互聯(lián)組網(wǎng)中,光鏈路的端面臟污問(wèn)題就成為計(jì)算系統(tǒng)能夠支持長(zhǎng)穩(wěn)訓(xùn)練的最大痛點(diǎn)。
(數(shù)據(jù)來(lái)源:2025芯光論壇,華為云)
一方面,端面臟污可能帶來(lái)計(jì)算集群的網(wǎng)絡(luò)閃斷頻發(fā)故障率奇高。根據(jù)2023年華為云現(xiàn)網(wǎng)2萬(wàn)+個(gè)鏈路閃斷率統(tǒng)計(jì)分析,系統(tǒng)初始閃斷率達(dá)到37.27%,而光鏈路端面臟污是閃斷的主要根因。
端面臟污帶來(lái)的閃斷問(wèn)題,可能給計(jì)算集群帶來(lái)的損失也非常大。根據(jù)科大訊飛萬(wàn)卡集群分析,集群設(shè)備空轉(zhuǎn)7天的損失可以達(dá)到1548.61萬(wàn)元。
而想要識(shí)別光鏈路的端面臟污,傳統(tǒng)方法現(xiàn)網(wǎng)運(yùn)維存在著工程量和代價(jià)巨大的問(wèn)題。傳統(tǒng)檢測(cè)手段檢出率只有48.3%,假如面對(duì)超節(jié)點(diǎn)超過(guò)11萬(wàn)條光鏈路的工作量,傳統(tǒng)運(yùn)維檢測(cè)方式根本無(wú)法入手。
昇騰384超節(jié)點(diǎn)想要實(shí)現(xiàn)以系統(tǒng)破單點(diǎn)的算力突圍,就必須克服掉光鏈接的運(yùn)維與檢測(cè)難題。為此,超節(jié)點(diǎn)配置了6912個(gè)星云光模塊,實(shí)現(xiàn)了以智能運(yùn)維檢測(cè),突破AI算力極限的一次“逆襲”。
數(shù)智化系統(tǒng)的三要素是存、算、網(wǎng)。三者相輔相成,互為犄角。在大規(guī)模AI算力的集群式組網(wǎng)中,網(wǎng)絡(luò)聯(lián)接能力發(fā)揮著關(guān)鍵的作用,甚至可以成為破局的關(guān)鍵。在打造昇騰384超節(jié)點(diǎn)的過(guò)程中,華為在光通信領(lǐng)域的技術(shù)力得到了充分釋放,實(shí)現(xiàn)了以長(zhǎng)板克短板的戰(zhàn)略化思維。而具體實(shí)現(xiàn)這一目標(biāo)的技術(shù)王牌,就是華為星云光模塊。
昇騰384超節(jié)點(diǎn)能夠達(dá)成,依靠的是超大規(guī)模的光鏈路組網(wǎng)。每個(gè)昇騰384 Pod配置了6912個(gè)星云400G光模塊,其中5376個(gè)用于scale up,1536個(gè)用于scale out網(wǎng)絡(luò)。
星云400G光模塊的作用在于可以有效解決智算中心網(wǎng)絡(luò)的一系列瓶頸與難題,實(shí)現(xiàn)超大規(guī)模AI計(jì)算集群的系統(tǒng)性突破。
其中,面向端面臟污等問(wèn)題,星云光模塊極具創(chuàng)造性地實(shí)現(xiàn)了“星云智檢StarSensor”。
星云400G光模塊具備光口、電口健康度診斷、自動(dòng)臟污檢測(cè)等功能。通過(guò)增強(qiáng)型光模塊級(jí)壓測(cè),星云光模塊可以更容易識(shí)別出光鏈路臟污引起的突發(fā)誤碼,從而有效降低閃斷風(fēng)險(xiǎn)。根據(jù)相關(guān)數(shù)據(jù),星云400G光模塊的臟污檢測(cè)算法,可以實(shí)現(xiàn)光鏈路端口檢測(cè)準(zhǔn)確率達(dá)到90+%,實(shí)現(xiàn)分鐘級(jí)檢測(cè),從而解決現(xiàn)網(wǎng)閃斷的難題。
對(duì)端面臟污的高精準(zhǔn)智能化識(shí)別,可以全面提升光鏈路的運(yùn)維效率,讓超大規(guī)模AI算力真正落地,提升系統(tǒng)的可用性,實(shí)現(xiàn)了對(duì)超大規(guī)模AI計(jì)算集群的360°無(wú)死角防護(hù)。
開(kāi)啟星云光模塊的星云智檢功能后,華為云現(xiàn)網(wǎng)數(shù)據(jù)表明鏈路故障報(bào)錯(cuò)率降低了13.9倍。
星云光模塊的這道“光”,照亮了中國(guó)AI算力的前路。它支撐超節(jié)點(diǎn)成功構(gòu)筑了全球規(guī)模最大、技術(shù)力最為領(lǐng)先的AI計(jì)算集群,一舉超過(guò)了此前備受矚目的英偉達(dá)NVL72。更重要的是,它印證了以系統(tǒng)破單點(diǎn)這條AI算力路徑的可行。
在作為底座的AI算力層面,發(fā)現(xiàn)隨著華為昇騰384的出現(xiàn)與成熟,中美在AI算力領(lǐng)域呈現(xiàn)出各有所長(zhǎng),基本持平的發(fā)展態(tài)勢(shì)。憑借華為在光通信領(lǐng)域多年的積累,面向智算中心的AI原生光互聯(lián)解決方案星云光互聯(lián)成為一張王牌,幫助超節(jié)點(diǎn)構(gòu)筑起面向未來(lái)的AI算力底座。
以此為契機(jī),中國(guó)的光通信產(chǎn)業(yè)正發(fā)生著快速的升級(jí)與迭代。伴隨著光進(jìn)銅退的大勢(shì)所趨,光互聯(lián)成為AI算力發(fā)展的關(guān)鍵助力。星云光模塊不僅能夠幫助昇騰 384超節(jié)點(diǎn)馴服AI算力的巨獸,更能夠幫助中國(guó)智算產(chǎn)業(yè)實(shí)現(xiàn)整體性的突破與升級(jí)。
未來(lái)的AI競(jìng)賽,將會(huì)是結(jié)構(gòu)性、體系化的競(jìng)賽。星云光互聯(lián)這樣的技術(shù)王牌,將會(huì)在可見(jiàn)的未來(lái)里發(fā)揮出更大的牽引效應(yīng),成為智算中心建設(shè)與AI計(jì)算集群組網(wǎng)過(guò)程中的標(biāo)配。
逐“光”而行,正成為中國(guó)AI突破限制的可行之路。
原文標(biāo)題 : 無(wú)光不AI:AI算力,向光而逐

發(fā)表評(píng)論
登錄
手機(jī)
驗(yàn)證碼
立即登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)
還不是會(huì)員?免費(fèi)注冊(cè)
忘記密碼請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
12月18日立即報(bào)名>> 【線(xiàn)下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專(zhuān)題
- 1 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 6 2025年8月人工智能投融資觀(guān)察
- 7 8 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 9 Manus跑路,大廠(chǎng)掉線(xiàn),只能靠DeepSeek了
- 10 地平線(xiàn)的野心:1000萬(wàn)套HSD上車(chē)