訂閱
糾錯
加入自媒體

Meta 自研 AI 推理芯片:四代路線圖深度解讀

芝能智芯出品

Meta 在AI領(lǐng)域有些豪賭的意味,花了好幾年時間,專心做推理芯片,基于 RISC-V 架構(gòu)的、模塊化的、可以快速迭代的推理芯片。

MTIA是Meta 的人工智能加速器系列,Meta 發(fā)布了新的硬件路線圖,四代產(chǎn)品終于完整浮出水面:MTIA 300、400、450、500。

Part 1為什么是推理?

很多人可能不理解:為什么 Meta 不去做訓(xùn)練芯片?答案很簡單訓(xùn)練不是 Meta 的核心需求。

Meta 的日常運轉(zhuǎn),依賴的是排名和推薦系統(tǒng)。每天數(shù)十億用戶在 Facebook、Instagram、WhatsApp 上的每一次滑動、每一次點擊,背后都有一套推薦算法在實時運算。

這套系統(tǒng)需要的是什么?不是超級算力,而是海量、頻繁的推理。

生成式 AI 興起之后,這個邏輯沒有改變,只是推理的規(guī)模變得更大了。

Meta 的判斷是:與其把訓(xùn)練芯片的算力拿來跑推理,不如專門為推理設(shè)計芯片。用他們自己的話說,這是"針對自身特定需求高度優(yōu)化的硬件"——不是最強(qiáng)的,但是最合適的。

MTIA 平臺基于行業(yè)標(biāo)準(zhǔn)軟件生態(tài)構(gòu)建,PyTorch、vLLM、Triton 都原生支持,遵循 OCP 硬件標(biāo)準(zhǔn)。這些選擇讓 MTIA 的部署成本遠(yuǎn)低于完全自研體系。

● MTIA 300:第一塊基石

2024 年,Meta 推出了第一代 MTIA 加速器——MTIA 300。

這款芯片的設(shè)計目標(biāo)很明確:排名和推薦模型的推理加速。在生成式 AI 成為行業(yè)焦點之前,這兩類模型是 Meta 最大的算力消耗來源。

MTIA 300 基于 RISC-V 架構(gòu),這一點本身就值得注意——RISC-V 是開源指令集,不存在授權(quán)問題,也為后續(xù)迭代留足了自由度。

MTIA 300 已經(jīng)投入生產(chǎn),主要用于排名和推薦訓(xùn)練。它奠定了模塊化設(shè)計的基礎(chǔ),也驗證了 Meta 自研推理芯片這條路是走得通的。

● MTIA 400:生成式 AI 的入場券

生成式 AI 的爆發(fā),讓 Meta 意識到 300 的能力已經(jīng)不夠用了。

MTIA 400 的計算性能是 300 的五倍以上,HBM 內(nèi)存帶寬提升了 50%,達(dá)到 9.2TB/s。這個數(shù)字放到當(dāng)下的 AI 芯片市場里不算頂尖,但已經(jīng)足夠支撐 Meta 跑更大規(guī)模的生成式 AI 推理任務(wù)。

更重要的是擴(kuò)展能力。MTIA 300 最多支持 16 個節(jié)點的集群擴(kuò)展,MTIA 400 一舉拉到 72 個節(jié)點。這意味著 MTIA 400 的性能和成本競爭力,終于可以和主流商用 AI 加速器正面較量了。

Meta 方面表示,MTIA 400 已完成實驗室測試,正在推進(jìn)數(shù)據(jù)中心部署。

● MTIA 450:帶寬才是瓶頸

從 400 到 450,Meta 的優(yōu)化方向發(fā)生了微妙的轉(zhuǎn)變。

這次是內(nèi)存帶寬的直接翻倍——從 9.2TB/s 到 18.4TB/s。選擇背后有一套清晰的邏輯:生成式 AI 推理中,內(nèi)存帶寬往往比原始算力更關(guān)鍵。

大模型需要頻繁訪問海量參數(shù),帶寬不夠,算力再強(qiáng)也只是空轉(zhuǎn)。MTIA 450 為推理做了專門優(yōu)化,HBM 帶寬翻倍的同時,還加強(qiáng)了對低精度數(shù)據(jù)類型——包括 Meta 自定義數(shù)據(jù)類型——的支持。

這種定制化的數(shù)據(jù)類型支持,是通用芯片很難做到的。計劃 2027 年初開始大規(guī)模部署。

● MTIA 500:模塊化的終極形態(tài)

路線圖上最后一款芯片是 MTIA 500,也是最能體現(xiàn) Meta 設(shè)計哲學(xué)的一款。HBM 帶寬再提升 50%,達(dá)到 27.6TB/s,容量最高可達(dá)每臺加速器 512GB。如果 HBM 技術(shù)演進(jìn)順利,這個容量數(shù)字還有進(jìn)一步提升的空間。

更重要的是封裝方式的變化:MTIA 500 將采用 2×2 的小型計算芯片組配置。

Meta 在 300 到 400 的迭代中積累了大量模塊化設(shè)計經(jīng)驗,2×2 配置意味著計算芯片、HBM 堆棧、網(wǎng)絡(luò)芯片、SoC 芯片可以獨立演進(jìn)、單獨替換。

芯片從設(shè)計到量產(chǎn)需要兩年以上,在這個周期里工作負(fù)載可能已經(jīng)發(fā)生巨大變化——模塊化是 Meta 給這個問題準(zhǔn)備的答案。同樣計劃 2027 年大規(guī)模部署。

Part 2產(chǎn)品的迭代

從 300 到 500,Meta 給出了一組數(shù)據(jù):HBM 帶寬提升 4.5 倍,計算浮點運算能力提升 25 倍。

時間跨度不到三年。四代產(chǎn)品,平均每代半年到一年的迭代周期。這對于芯片行業(yè)來說,是相當(dāng)快的節(jié)奏。

傳統(tǒng)芯片從設(shè)計到量產(chǎn)通常需要兩到三年,Meta 能做到這一點,靠的就是模塊化——每一代都基于上一代產(chǎn)品,更新最關(guān)鍵的部分,其他部分盡量復(fù)用。

400、450、500 三代芯片共用同一套機(jī)架和網(wǎng)絡(luò)基礎(chǔ)設(shè)施,新芯片推出時可以直接替換舊芯片,不需要重建數(shù)據(jù)中心。

MTIA 還有一個容易被忽視的優(yōu)勢:開放生態(tài)。

Meta 是 Open Compute Project(OCP)的重要成員,MTIA 的硬件設(shè)計遵循 OCP 標(biāo)準(zhǔn)。軟件層面,PyTorch、vLLM、Triton 都原生支持,不需要額外的軟件適配。

這些選擇降低了整個生態(tài)的門檻——客戶或者合作伙伴可以更平滑地接入 Meta 的硬件體系。

RISC-V 是開源指令集,OCP 是開放硬件標(biāo)準(zhǔn),這兩件事加在一起,意味著 MTIA 的技術(shù)路線本身不存在出口管制風(fēng)險。這也是為什么 MTIA 的演進(jìn)路徑對國內(nèi) AI 芯片行業(yè)具有相當(dāng)?shù)膮⒖純r值。

小結(jié)

MTIA 系列的演進(jìn),專注訓(xùn)練芯片的廠商在追求規(guī)模,專注推理芯片的 Meta 在追求效率。當(dāng)潮水退去的時候,誰的模式更可持續(xù),市場會給出答案。已有數(shù)十萬顆 MTIA 芯片投入生產(chǎn),這個數(shù)字還在增長。

       原文標(biāo)題 : Meta 自研 AI 推理芯片:四代路線圖深度解讀

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    智能制造 獵頭職位 更多
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號