訂閱
糾錯(cuò)
加入自媒體

深度丨從GPU到系統(tǒng)全棧,AI算力價(jià)值重心正向CPU遷移

前言:

在過去三年里,AI算力敘事幾乎被單一邏輯主導(dǎo),GPU即算力,算力即GPU。

但當(dāng)AI從模型競(jìng)賽進(jìn)入系統(tǒng)競(jìng)賽,算力價(jià)值正在發(fā)生一場(chǎng)更深層的結(jié)構(gòu)性轉(zhuǎn)移。

算力的價(jià)值重心正在從GPU芯片本身,向CPU+系統(tǒng)層遷移。

CPU回歸C位,從配角到調(diào)度中樞

Agentic AI的出現(xiàn),徹底顛覆了AI的工作模式。

一個(gè)典型的Agent任務(wù),往往包含數(shù)十次網(wǎng)絡(luò)搜索、API調(diào)用、代碼執(zhí)行、文檔解析與結(jié)果編排,這些工作負(fù)載的特性,早已超出了GPU的并行優(yōu)勢(shì)范疇。

在Agent的工作流中,GPU依然負(fù)責(zé)核心的token生成,而CPU承擔(dān)起了[讓token真正發(fā)揮作用]的重任。

這意味著,用戶感知到的AI響應(yīng)速度與使用體驗(yàn),不再由GPU的算力上限決定,而是被CPU的處理效率牢牢卡住。

哪怕GPU能在毫秒級(jí)完成token生成,只要CPU的任務(wù)編排、工具執(zhí)行出現(xiàn)延遲,整個(gè)系統(tǒng)的端到端體驗(yàn)就會(huì)被無限拉長(zhǎng)。

行業(yè)終于意識(shí)到,在Agentic AI時(shí)代,單純堆砌GPU已經(jīng)解決不了根本問題。

康奈爾大學(xué)研究顯示,在五大代表性Agent工作負(fù)載中,CPU端的工具處理、邏輯調(diào)度、數(shù)據(jù)預(yù)處理環(huán)節(jié),占總端到端延遲的比例達(dá)到43.8%—90.6%,遠(yuǎn)高于GPU端的模型推理占比。

在最常用的Haystack RAG場(chǎng)景中,CPU處理甚至占據(jù)了總延遲的90%以上,GPU的推理計(jì)算僅占不到10%。

當(dāng)百萬級(jí)Agent并發(fā)運(yùn)行時(shí),對(duì)CPU核心數(shù)的需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。

云廠商的實(shí)測(cè)數(shù)據(jù)顯示,同樣1萬張A100 GPU卡組成的集群,要想將GPU利用率打滿,配套的CPU核心數(shù)需要從傳統(tǒng)的50萬顆提升至120萬顆。

當(dāng)算力規(guī)模上來之后,問題變成如何調(diào)度、分配和提高利用率,這正是CPU和系統(tǒng)層發(fā)揮作用的地方。

算力的消耗主體變了,價(jià)值標(biāo)準(zhǔn)隨之改變

當(dāng)算力資源極其稀缺時(shí),最重要的是[誰有GPU]。

IDC的調(diào)研數(shù)據(jù)也顯示,即使是頭部互聯(lián)網(wǎng)企業(yè)的AI推理集群,GPU平均利用率也長(zhǎng)期低于40%,大量中小企業(yè)的GPU集群利用率甚至不足15%。

造成這種巨大浪費(fèi)的核心原因是整個(gè)系統(tǒng)的數(shù)據(jù)流動(dòng)、任務(wù)調(diào)度、內(nèi)存管理能力,跟不上GPU的計(jì)算速度。

就像一輛頂級(jí)的超跑,在擁堵的城市道路上,根本無法發(fā)揮出最高時(shí),而CPU正是這條道路的設(shè)計(jì)者與交通調(diào)度員。

MLPerf的行業(yè)基準(zhǔn)測(cè)試顯示,在大模型訓(xùn)練場(chǎng)景中,數(shù)據(jù)加載、預(yù)處理、參數(shù)同步的延遲,可占用總訓(xùn)練時(shí)間的35%-60%,這直接導(dǎo)致GPU利用率不足40%。

GPU算力的天花板往往是由CPU的性能決定的,這種調(diào)度與管理的核心價(jià)值,在分布式AI集群中體現(xiàn)得更加明顯。

CXL(Compute Express Link)技術(shù)的普及,進(jìn)一步強(qiáng)化了CPU的核心地位。

作為新一代高速互聯(lián)協(xié)議,CXL通過內(nèi)存池化技術(shù),將分散在不同服務(wù)器、不同加速卡上的內(nèi)存資源,整合成一個(gè)統(tǒng)一的共享內(nèi)存池,徹底打破了傳統(tǒng)架構(gòu)的內(nèi)存墻瓶頸。

而CPU正是整個(gè)CXL內(nèi)存池的唯一主控單元,負(fù)責(zé)內(nèi)存地址的統(tǒng)一映射、緩存一致性的維護(hù)、資源的動(dòng)態(tài)分配。

實(shí)測(cè)數(shù)據(jù)顯示,基于CXL 3.0的內(nèi)存池化架構(gòu),跨節(jié)點(diǎn)內(nèi)存訪問延遲從傳統(tǒng)NUMA架構(gòu)的220ns降至90ns,內(nèi)存帶寬利用率從65%提升至92%,緩存未命中率從18%降至6%。

通用算力底座,才是AI泛化的關(guān)鍵

實(shí)體行業(yè)的AI應(yīng)用幾乎都是[混合負(fù)載]場(chǎng)景,金融機(jī)構(gòu)的服務(wù)器,既要跑核心交易系統(tǒng)、數(shù)據(jù)庫(kù)、風(fēng)控中間件,又要跑用戶畫像的向量檢索。

制造企業(yè)的產(chǎn)線服務(wù)器,既要跑工業(yè)控制軟件、設(shè)備管理系統(tǒng),又要跑產(chǎn)品質(zhì)檢的計(jì)算機(jī)視覺模型。

政務(wù)系統(tǒng)的服務(wù)器,既要跑政務(wù)服務(wù)平臺(tái)、數(shù)據(jù)共享系統(tǒng),又要跑智能問答、公文審核的大模型應(yīng)用。

這些場(chǎng)景中,用戶最核心的訴求,不是單獨(dú)部署一套AI算力集群,而是在現(xiàn)有的業(yè)務(wù)系統(tǒng)上,無縫融合AI能力,這正是CPU的核心優(yōu)勢(shì)所在。

GPU的架構(gòu)設(shè)計(jì)天然面向并行計(jì)算,很難同時(shí)高效處理數(shù)據(jù)庫(kù)、中間件等串行的通用業(yè)務(wù)負(fù)載,強(qiáng)行混合部署只會(huì)導(dǎo)致兩者的性能都大幅下降。

而CPU的通用架構(gòu),天生就能適配各類業(yè)務(wù)負(fù)載與AI負(fù)載的混合運(yùn)行,實(shí)現(xiàn)一套硬件、統(tǒng)一運(yùn)維、統(tǒng)一調(diào)度,大幅降低企業(yè)的部署成本與運(yùn)維復(fù)雜度。

云廠商的自研CPU,已經(jīng)在這類場(chǎng)景中驗(yàn)證了巨大的價(jià)值。

AWS Graviton4處理器,在搜索、廣告、推薦等主流在線AI應(yīng)用場(chǎng)景中,性能相比前代提升35%-50%,相比同規(guī)格的x86實(shí)例,性價(jià)比提升30%-50%。

目前,全球已有超10萬家企業(yè)將其核心的在線AI推理業(yè)務(wù)遷移到Graviton實(shí)例上,其中既包括Epic Games這樣的互聯(lián)網(wǎng)企業(yè),也包括SAP、IBM等企業(yè)級(jí)服務(wù)商。

阿里云的倚天710處理器,基于ARM v9架構(gòu)與SVE2指令集,針對(duì)AI推理場(chǎng)景優(yōu)化后,推理性能最高可提升2倍。

國(guó)內(nèi)的自主可控CPU,更是借助這一趨勢(shì),實(shí)現(xiàn)了AI場(chǎng)景的快速突破。

與此同時(shí),CPU自身的AI能力已經(jīng)實(shí)現(xiàn)了質(zhì)的飛躍,徹底打破了[CPU不適合AI]的固有認(rèn)知。

過去,CPU的AI計(jì)算依賴通用核心的矢量運(yùn)算,性能與GPU差距巨大。

但現(xiàn)在,主流的服務(wù)器CPU都已經(jīng)集成了專門的AI加速單元,通過專用指令集與硬件加速引擎,實(shí)現(xiàn)了AI性能的跨越式提升。

CPU為核,GPU為翼,帶來的產(chǎn)業(yè)變革

①AI原生的CPU架構(gòu),將成為下一代服務(wù)器芯片的核心競(jìng)爭(zhēng)點(diǎn)。

過去的CPU設(shè)計(jì),核心目標(biāo)是通用計(jì)算性能的提升,AI加速只是附加功能。

未來的CPU設(shè)計(jì),會(huì)從架構(gòu)層面就針對(duì)AI負(fù)載進(jìn)行原生優(yōu)化。

CPU的競(jìng)爭(zhēng),將從單純的核數(shù)、主頻比拼,升級(jí)為AI全場(chǎng)景綜合能力的較量。

②端云協(xié)同的統(tǒng)一算力架構(gòu),CPU將成為AI泛化的核心底座。

當(dāng)下的AI算力,端側(cè)、邊緣側(cè)、云側(cè)往往采用不同的架構(gòu),模型開發(fā)、適配、部署的成本極高。

這也是AWS、阿里云、華為等云廠商,都大力投入自研Arm架構(gòu)CPU的核心原因。

③在AI原生的CPU賽道上,全球廠商都處于同一起跑線,國(guó)內(nèi)廠商在場(chǎng)景理解、客戶需求適配、國(guó)產(chǎn)化生態(tài)上,有著天然的優(yōu)勢(shì)。

鯤鵬、海光等廠商,已經(jīng)在AI場(chǎng)景實(shí)現(xiàn)了技術(shù)突破,未來隨著AI在千行百業(yè)的落地,國(guó)產(chǎn)CPU有望從[替代者],成長(zhǎng)為AI算力市場(chǎng)的核心玩家,構(gòu)建起自主可控的AI算力全棧體系。

④全棧軟件生態(tài)的競(jìng)爭(zhēng),將成為CPU廠商的核心護(hù)城河。

CPU的AI性能能不能充分發(fā)揮,很大程度上取決于軟件生態(tài)的完善度,包括對(duì)TensorFlow、PyTorch、飛槳等主流AI框架的深度適配。

對(duì)主流大模型的量化、壓縮優(yōu)化,對(duì)行業(yè)場(chǎng)景的算子定制,對(duì)開發(fā)工具鏈的完善。

未來,各大CPU廠商都會(huì)在軟件生態(tài)上加大投入,構(gòu)建從硬件到框架、從模型到場(chǎng)景的全棧AI軟件體系,這將成為決定市場(chǎng)格局的關(guān)鍵。

⑤CPU行業(yè)的指令集競(jìng)爭(zhēng),出現(xiàn)了新的軸線。

x86陣營(yíng)與Arm陣營(yíng),將圍繞Agentic工作負(fù)載展開新一輪的角逐。

Agent調(diào)用的絕大多數(shù)工具在x86架構(gòu)上完成了幾十年的優(yōu)化,這種生態(tài)慣性是x86最大的護(hù)城河。

Arm陣營(yíng)的核心競(jìng)爭(zhēng)力是極致的功耗效率,NVIDIA Vera/Grace、AWS Graviton、Ampere等Arm架構(gòu)CPU,在同等功耗下能實(shí)現(xiàn)更高的并發(fā)處理能力,與Agentic工作負(fù)載輕線程的特性高度契合。

結(jié)尾:

市場(chǎng)的反應(yīng),永遠(yuǎn)是產(chǎn)業(yè)變革最真實(shí)的注腳。

如今,CPU已經(jīng)從曾經(jīng)的標(biāo)準(zhǔn)化商品組件,變成了能顯著影響AI系統(tǒng)性能的差異化產(chǎn)品。

AI算力的核心問題已經(jīng)從性能轉(zhuǎn)向效率,GPU依然是AI的發(fā)動(dòng)機(jī),但CPU和系統(tǒng)層,正在成為方向盤和變速器。

部分資料參考:印科技:《接棒HBM的新卡點(diǎn)!》,半導(dǎo)體行業(yè)觀察:《算力的新因果:AI Agent時(shí)代,被重估的CPU價(jià)值與新機(jī)遇》,半導(dǎo)體前線:《GPU霸權(quán)松動(dòng)!代理AI發(fā)力,CPU迎來高峰?》財(cái)聯(lián)社:《CPU何以站上[算力C位]?》

       原文標(biāo)題 : 深度丨從GPU到系統(tǒng)全棧,AI算力價(jià)值重心正向CPU遷移

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)