123,123

Meta 自研 AI 推理芯片：四代路線圖深度解讀

2026-04-03 16:11

芝能智芯

關(guān)注

芝能智芯出品

Meta 在AI領(lǐng)域有些豪賭的意味，花了好幾年時間，專心做推理芯片，基于 RISC-V 架構(gòu)的、模塊化的、可以快速迭代的推理芯片。

MTIA是Meta 的人工智能加速器系列，Meta 發(fā)布了新的硬件路線圖，四代產(chǎn)品終于完整浮出水面：MTIA 300、400、450、500。

Part 1為什么是推理？

很多人可能不理解：為什么 Meta 不去做訓(xùn)練芯片？答案很簡單訓(xùn)練不是 Meta 的核心需求。

Meta 的日常運轉(zhuǎn)，依賴的是排名和推薦系統(tǒng)。每天數(shù)十億用戶在 Facebook、Instagram、WhatsApp 上的每一次滑動、每一次點擊，背后都有一套推薦算法在實時運算。

這套系統(tǒng)需要的是什么？不是超級算力，而是海量、頻繁的推理。

生成式 AI 興起之后，這個邏輯沒有改變，只是推理的規(guī)模變得更大了。

Meta 的判斷是：與其把訓(xùn)練芯片的算力拿來跑推理，不如專門為推理設(shè)計芯片。用他們自己的話說，這是"針對自身特定需求高度優(yōu)化的硬件"——不是最強(qiáng)的，但是最合適的。

MTIA 平臺基于行業(yè)標(biāo)準(zhǔn)軟件生態(tài)構(gòu)建，PyTorch、vLLM、Triton 都原生支持，遵循 OCP 硬件標(biāo)準(zhǔn)。這些選擇讓 MTIA 的部署成本遠(yuǎn)低于完全自研體系。

● MTIA 300：第一塊基石

2024 年，Meta 推出了第一代 MTIA 加速器——MTIA 300。

這款芯片的設(shè)計目標(biāo)很明確：排名和推薦模型的推理加速。在生成式 AI 成為行業(yè)焦點之前，這兩類模型是 Meta 最大的算力消耗來源。

MTIA 300 基于 RISC-V 架構(gòu)，這一點本身就值得注意——RISC-V 是開源指令集，不存在授權(quán)問題，也為后續(xù)迭代留足了自由度。

MTIA 300 已經(jīng)投入生產(chǎn)，主要用于排名和推薦訓(xùn)練。它奠定了模塊化設(shè)計的基礎(chǔ)，也驗證了 Meta 自研推理芯片這條路是走得通的。

● MTIA 400：生成式 AI 的入場券

生成式 AI 的爆發(fā)，讓 Meta 意識到 300 的能力已經(jīng)不夠用了。

MTIA 400 的計算性能是 300 的五倍以上，HBM 內(nèi)存帶寬提升了 50%，達(dá)到 9.2TB/s。這個數(shù)字放到當(dāng)下的 AI 芯片市場里不算頂尖，但已經(jīng)足夠支撐 Meta 跑更大規(guī)模的生成式 AI 推理任務(wù)。

更重要的是擴(kuò)展能力。MTIA 300 最多支持 16 個節(jié)點的集群擴(kuò)展，MTIA 400 一舉拉到 72 個節(jié)點。這意味著 MTIA 400 的性能和成本競爭力，終于可以和主流商用 AI 加速器正面較量了。

Meta 方面表示，MTIA 400 已完成實驗室測試，正在推進(jìn)數(shù)據(jù)中心部署。

● MTIA 450：帶寬才是瓶頸

從 400 到 450，Meta 的優(yōu)化方向發(fā)生了微妙的轉(zhuǎn)變。

這次是內(nèi)存帶寬的直接翻倍——從 9.2TB/s 到 18.4TB/s。選擇背后有一套清晰的邏輯：生成式 AI 推理中，內(nèi)存帶寬往往比原始算力更關(guān)鍵。

大模型需要頻繁訪問海量參數(shù)，帶寬不夠，算力再強(qiáng)也只是空轉(zhuǎn)。MTIA 450 為推理做了專門優(yōu)化，HBM 帶寬翻倍的同時，還加強(qiáng)了對低精度數(shù)據(jù)類型——包括 Meta 自定義數(shù)據(jù)類型——的支持。

這種定制化的數(shù)據(jù)類型支持，是通用芯片很難做到的。計劃 2027 年初開始大規(guī)模部署。

● MTIA 500：模塊化的終極形態(tài)

路線圖上最后一款芯片是 MTIA 500，也是最能體現(xiàn) Meta 設(shè)計哲學(xué)的一款。HBM 帶寬再提升 50%，達(dá)到 27.6TB/s，容量最高可達(dá)每臺加速器 512GB。如果 HBM 技術(shù)演進(jìn)順利，這個容量數(shù)字還有進(jìn)一步提升的空間。

更重要的是封裝方式的變化：MTIA 500 將采用 2×2 的小型計算芯片組配置。

Meta 在 300 到 400 的迭代中積累了大量模塊化設(shè)計經(jīng)驗，2×2 配置意味著計算芯片、HBM 堆棧、網(wǎng)絡(luò)芯片、SoC 芯片可以獨立演進(jìn)、單獨替換。

芯片從設(shè)計到量產(chǎn)需要兩年以上，在這個周期里工作負(fù)載可能已經(jīng)發(fā)生巨大變化——模塊化是 Meta 給這個問題準(zhǔn)備的答案。同樣計劃 2027 年大規(guī)模部署。

Part 2產(chǎn)品的迭代

從 300 到 500，Meta 給出了一組數(shù)據(jù)：HBM 帶寬提升 4.5 倍，計算浮點運算能力提升 25 倍。

時間跨度不到三年。四代產(chǎn)品，平均每代半年到一年的迭代周期。這對于芯片行業(yè)來說，是相當(dāng)快的節(jié)奏。

傳統(tǒng)芯片從設(shè)計到量產(chǎn)通常需要兩到三年，Meta 能做到這一點，靠的就是模塊化——每一代都基于上一代產(chǎn)品，更新最關(guān)鍵的部分，其他部分盡量復(fù)用。

400、450、500 三代芯片共用同一套機(jī)架和網(wǎng)絡(luò)基礎(chǔ)設(shè)施，新芯片推出時可以直接替換舊芯片，不需要重建數(shù)據(jù)中心。

MTIA 還有一個容易被忽視的優(yōu)勢：開放生態(tài)。

Meta 是 Open Compute Project（OCP）的重要成員，MTIA 的硬件設(shè)計遵循 OCP 標(biāo)準(zhǔn)。軟件層面，PyTorch、vLLM、Triton 都原生支持，不需要額外的軟件適配。

這些選擇降低了整個生態(tài)的門檻——客戶或者合作伙伴可以更平滑地接入 Meta 的硬件體系。

RISC-V 是開源指令集，OCP 是開放硬件標(biāo)準(zhǔn)，這兩件事加在一起，意味著 MTIA 的技術(shù)路線本身不存在出口管制風(fēng)險。這也是為什么 MTIA 的演進(jìn)路徑對國內(nèi) AI 芯片行業(yè)具有相當(dāng)?shù)膮⒖純r值。

小結(jié)

MTIA 系列的演進(jìn)，專注訓(xùn)練芯片的廠商在追求規(guī)模，專注推理芯片的 Meta 在追求效率。當(dāng)潮水退去的時候，誰的模式更可持續(xù)，市場會給出答案。已有數(shù)十萬顆 MTIA 芯片投入生產(chǎn)，這個數(shù)字還在增長。

原文標(biāo)題 : Meta 自研 AI 推理芯片：四代路線圖深度解讀

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞