123,123,123

深度丨從GPU到系統(tǒng)全棧，AI算力價(jià)值重心正向CPU遷移

2026-03-30 10:43

Ai芯天下

關(guān)注

前言：

在過去三年里，AI算力敘事幾乎被單一邏輯主導(dǎo)，GPU即算力，算力即GPU。

但當(dāng)AI從模型競(jìng)賽進(jìn)入系統(tǒng)競(jìng)賽，算力價(jià)值正在發(fā)生一場(chǎng)更深層的結(jié)構(gòu)性轉(zhuǎn)移。

算力的價(jià)值重心正在從GPU芯片本身，向CPU+系統(tǒng)層遷移。

CPU回歸C位，從配角到調(diào)度中樞

Agentic AI的出現(xiàn)，徹底顛覆了AI的工作模式。

一個(gè)典型的Agent任務(wù)，往往包含數(shù)十次網(wǎng)絡(luò)搜索、API調(diào)用、代碼執(zhí)行、文檔解析與結(jié)果編排，這些工作負(fù)載的特性，早已超出了GPU的并行優(yōu)勢(shì)范疇。

在Agent的工作流中，GPU依然負(fù)責(zé)核心的token生成，而CPU承擔(dān)起了[讓token真正發(fā)揮作用]的重任。

這意味著，用戶感知到的AI響應(yīng)速度與使用體驗(yàn)，不再由GPU的算力上限決定，而是被CPU的處理效率牢牢卡住。

哪怕GPU能在毫秒級(jí)完成token生成，只要CPU的任務(wù)編排、工具執(zhí)行出現(xiàn)延遲，整個(gè)系統(tǒng)的端到端體驗(yàn)就會(huì)被無限拉長(zhǎng)。

行業(yè)終于意識(shí)到，在Agentic AI時(shí)代，單純堆砌GPU已經(jīng)解決不了根本問題。

康奈爾大學(xué)研究顯示，在五大代表性Agent工作負(fù)載中，CPU端的工具處理、邏輯調(diào)度、數(shù)據(jù)預(yù)處理環(huán)節(jié)，占總端到端延遲的比例達(dá)到43.8%—90.6%，遠(yuǎn)高于GPU端的模型推理占比。

在最常用的Haystack RAG場(chǎng)景中，CPU處理甚至占據(jù)了總延遲的90%以上，GPU的推理計(jì)算僅占不到10%。

當(dāng)百萬級(jí)Agent并發(fā)運(yùn)行時(shí)，對(duì)CPU核心數(shù)的需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。

云廠商的實(shí)測(cè)數(shù)據(jù)顯示，同樣1萬張A100 GPU卡組成的集群，要想將GPU利用率打滿，配套的CPU核心數(shù)需要從傳統(tǒng)的50萬顆提升至120萬顆。

當(dāng)算力規(guī)模上來之后，問題變成如何調(diào)度、分配和提高利用率，這正是CPU和系統(tǒng)層發(fā)揮作用的地方。

算力的消耗主體變了，價(jià)值標(biāo)準(zhǔn)隨之改變

當(dāng)算力資源極其稀缺時(shí)，最重要的是[誰有GPU]。

IDC的調(diào)研數(shù)據(jù)也顯示，即使是頭部互聯(lián)網(wǎng)企業(yè)的AI推理集群，GPU平均利用率也長(zhǎng)期低于40%，大量中小企業(yè)的GPU集群利用率甚至不足15%。

造成這種巨大浪費(fèi)的核心原因是整個(gè)系統(tǒng)的數(shù)據(jù)流動(dòng)、任務(wù)調(diào)度、內(nèi)存管理能力，跟不上GPU的計(jì)算速度。

就像一輛頂級(jí)的超跑，在擁堵的城市道路上，根本無法發(fā)揮出最高時(shí)，而CPU正是這條道路的設(shè)計(jì)者與交通調(diào)度員。

MLPerf的行業(yè)基準(zhǔn)測(cè)試顯示，在大模型訓(xùn)練場(chǎng)景中，數(shù)據(jù)加載、預(yù)處理、參數(shù)同步的延遲，可占用總訓(xùn)練時(shí)間的35%-60%，這直接導(dǎo)致GPU利用率不足40%。

GPU算力的天花板往往是由CPU的性能決定的，這種調(diào)度與管理的核心價(jià)值，在分布式AI集群中體現(xiàn)得更加明顯。

CXL（Compute Express Link）技術(shù)的普及，進(jìn)一步強(qiáng)化了CPU的核心地位。

作為新一代高速互聯(lián)協(xié)議，CXL通過內(nèi)存池化技術(shù)，將分散在不同服務(wù)器、不同加速卡上的內(nèi)存資源，整合成一個(gè)統(tǒng)一的共享內(nèi)存池，徹底打破了傳統(tǒng)架構(gòu)的內(nèi)存墻瓶頸。

而CPU正是整個(gè)CXL內(nèi)存池的唯一主控單元，負(fù)責(zé)內(nèi)存地址的統(tǒng)一映射、緩存一致性的維護(hù)、資源的動(dòng)態(tài)分配。

實(shí)測(cè)數(shù)據(jù)顯示，基于CXL 3.0的內(nèi)存池化架構(gòu)，跨節(jié)點(diǎn)內(nèi)存訪問延遲從傳統(tǒng)NUMA架構(gòu)的220ns降至90ns，內(nèi)存帶寬利用率從65%提升至92%，緩存未命中率從18%降至6%。

通用算力底座，才是AI泛化的關(guān)鍵

實(shí)體行業(yè)的AI應(yīng)用幾乎都是[混合負(fù)載]場(chǎng)景，金融機(jī)構(gòu)的服務(wù)器，既要跑核心交易系統(tǒng)、數(shù)據(jù)庫(kù)、風(fēng)控中間件，又要跑用戶畫像的向量檢索。

制造企業(yè)的產(chǎn)線服務(wù)器，既要跑工業(yè)控制軟件、設(shè)備管理系統(tǒng)，又要跑產(chǎn)品質(zhì)檢的計(jì)算機(jī)視覺模型。

政務(wù)系統(tǒng)的服務(wù)器，既要跑政務(wù)服務(wù)平臺(tái)、數(shù)據(jù)共享系統(tǒng)，又要跑智能問答、公文審核的大模型應(yīng)用。

這些場(chǎng)景中，用戶最核心的訴求，不是單獨(dú)部署一套AI算力集群，而是在現(xiàn)有的業(yè)務(wù)系統(tǒng)上，無縫融合AI能力，這正是CPU的核心優(yōu)勢(shì)所在。

GPU的架構(gòu)設(shè)計(jì)天然面向并行計(jì)算，很難同時(shí)高效處理數(shù)據(jù)庫(kù)、中間件等串行的通用業(yè)務(wù)負(fù)載，強(qiáng)行混合部署只會(huì)導(dǎo)致兩者的性能都大幅下降。

而CPU的通用架構(gòu)，天生就能適配各類業(yè)務(wù)負(fù)載與AI負(fù)載的混合運(yùn)行，實(shí)現(xiàn)一套硬件、統(tǒng)一運(yùn)維、統(tǒng)一調(diào)度，大幅降低企業(yè)的部署成本與運(yùn)維復(fù)雜度。

云廠商的自研CPU，已經(jīng)在這類場(chǎng)景中驗(yàn)證了巨大的價(jià)值。

AWS Graviton4處理器，在搜索、廣告、推薦等主流在線AI應(yīng)用場(chǎng)景中，性能相比前代提升35%-50%，相比同規(guī)格的x86實(shí)例，性價(jià)比提升30%-50%。

目前，全球已有超10萬家企業(yè)將其核心的在線AI推理業(yè)務(wù)遷移到Graviton實(shí)例上，其中既包括Epic Games這樣的互聯(lián)網(wǎng)企業(yè)，也包括SAP、IBM等企業(yè)級(jí)服務(wù)商。

阿里云的倚天710處理器，基于ARM v9架構(gòu)與SVE2指令集，針對(duì)AI推理場(chǎng)景優(yōu)化后，推理性能最高可提升2倍。

國(guó)內(nèi)的自主可控CPU，更是借助這一趨勢(shì)，實(shí)現(xiàn)了AI場(chǎng)景的快速突破。

與此同時(shí)，CPU自身的AI能力已經(jīng)實(shí)現(xiàn)了質(zhì)的飛躍，徹底打破了[CPU不適合AI]的固有認(rèn)知。

過去，CPU的AI計(jì)算依賴通用核心的矢量運(yùn)算，性能與GPU差距巨大。

但現(xiàn)在，主流的服務(wù)器CPU都已經(jīng)集成了專門的AI加速單元，通過專用指令集與硬件加速引擎，實(shí)現(xiàn)了AI性能的跨越式提升。

CPU為核，GPU為翼，帶來的產(chǎn)業(yè)變革

①AI原生的CPU架構(gòu)，將成為下一代服務(wù)器芯片的核心競(jìng)爭(zhēng)點(diǎn)。

過去的CPU設(shè)計(jì)，核心目標(biāo)是通用計(jì)算性能的提升，AI加速只是附加功能。

未來的CPU設(shè)計(jì)，會(huì)從架構(gòu)層面就針對(duì)AI負(fù)載進(jìn)行原生優(yōu)化。

CPU的競(jìng)爭(zhēng)，將從單純的核數(shù)、主頻比拼，升級(jí)為AI全場(chǎng)景綜合能力的較量。

②端云協(xié)同的統(tǒng)一算力架構(gòu)，CPU將成為AI泛化的核心底座。

當(dāng)下的AI算力，端側(cè)、邊緣側(cè)、云側(cè)往往采用不同的架構(gòu)，模型開發(fā)、適配、部署的成本極高。

這也是AWS、阿里云、華為等云廠商，都大力投入自研Arm架構(gòu)CPU的核心原因。

③在AI原生的CPU賽道上，全球廠商都處于同一起跑線，國(guó)內(nèi)廠商在場(chǎng)景理解、客戶需求適配、國(guó)產(chǎn)化生態(tài)上，有著天然的優(yōu)勢(shì)。

鯤鵬、海光等廠商，已經(jīng)在AI場(chǎng)景實(shí)現(xiàn)了技術(shù)突破，未來隨著AI在千行百業(yè)的落地，國(guó)產(chǎn)CPU有望從[替代者]，成長(zhǎng)為AI算力市場(chǎng)的核心玩家，構(gòu)建起自主可控的AI算力全棧體系。

④全棧軟件生態(tài)的競(jìng)爭(zhēng)，將成為CPU廠商的核心護(hù)城河。

CPU的AI性能能不能充分發(fā)揮，很大程度上取決于軟件生態(tài)的完善度，包括對(duì)TensorFlow、PyTorch、飛槳等主流AI框架的深度適配。

對(duì)主流大模型的量化、壓縮優(yōu)化，對(duì)行業(yè)場(chǎng)景的算子定制，對(duì)開發(fā)工具鏈的完善。

未來，各大CPU廠商都會(huì)在軟件生態(tài)上加大投入，構(gòu)建從硬件到框架、從模型到場(chǎng)景的全棧AI軟件體系，這將成為決定市場(chǎng)格局的關(guān)鍵。

⑤CPU行業(yè)的指令集競(jìng)爭(zhēng)，出現(xiàn)了新的軸線。

x86陣營(yíng)與Arm陣營(yíng)，將圍繞Agentic工作負(fù)載展開新一輪的角逐。

Agent調(diào)用的絕大多數(shù)工具在x86架構(gòu)上完成了幾十年的優(yōu)化，這種生態(tài)慣性是x86最大的護(hù)城河。

Arm陣營(yíng)的核心競(jìng)爭(zhēng)力是極致的功耗效率，NVIDIA Vera/Grace、AWS Graviton、Ampere等Arm架構(gòu)CPU，在同等功耗下能實(shí)現(xiàn)更高的并發(fā)處理能力，與Agentic工作負(fù)載輕線程的特性高度契合。

結(jié)尾：

市場(chǎng)的反應(yīng)，永遠(yuǎn)是產(chǎn)業(yè)變革最真實(shí)的注腳。

如今，CPU已經(jīng)從曾經(jīng)的標(biāo)準(zhǔn)化商品組件，變成了能顯著影響AI系統(tǒng)性能的差異化產(chǎn)品。

AI算力的核心問題已經(jīng)從性能轉(zhuǎn)向效率，GPU依然是AI的發(fā)動(dòng)機(jī)，但CPU和系統(tǒng)層，正在成為方向盤和變速器。

部分資料參考：印科技：《接棒HBM的新卡點(diǎn)！》，半導(dǎo)體行業(yè)觀察：《算力的新因果：AI Agent時(shí)代，被重估的CPU價(jià)值與新機(jī)遇》，半導(dǎo)體前線：《GPU霸權(quán)松動(dòng)！代理AI發(fā)力，CPU迎來高峰？》財(cái)聯(lián)社：《CPU何以站上[算力C位]？》

原文標(biāo)題 : 深度丨從GPU到系統(tǒng)全棧，AI算力價(jià)值重心正向CPU遷移