訂閱
糾錯
加入自媒體

誰在死磕,存算一體?

圖片

2026年,一個醞釀已久的技術奇點正在到來。

央視《新聞聯(lián)播》的鏡頭罕見地對準了一項前沿芯片技術。全國人大代表、華中科技大學副校長馮丹在兩會通道上發(fā)出呼吁:支持湖北打造世界級存算一體化產(chǎn)業(yè)基地,為國家在“人工智能+”新時代掌握戰(zhàn)略主動權。

技術層面的突破也在同步發(fā)生。ISSCC 2026上,清華大學、華為與字節(jié)跳動聯(lián)合團隊在會上發(fā)布了一篇關于存內(nèi)計算芯片的論文,引起業(yè)內(nèi)關注。論文中首次提出基于28nm工藝的混合存內(nèi)計算(Compute-in-Memory, CiM)芯片,這款芯片通過創(chuàng)新架構設計,將推薦系統(tǒng)核心運算的效率和能效提升1–2個數(shù)量級(QPS提升66倍,QPS/W提升181倍)。

圖片

01

存算一體:后摩爾時代的破局之道

要理解存算一體為何重要,需要先理解一個基本矛盾:數(shù)據(jù)搬運正在“吃掉”計算效率。自1945年馮·諾依曼提出存儲程序計算機架構以來,全球計算產(chǎn)業(yè)在此框架下發(fā)展了八十余年。這一架構的核心特征是將計算單元與存儲單元分離,數(shù)據(jù)在處理器與內(nèi)存之間頻繁搬運。這就像一個工廠,原料倉庫與生產(chǎn)線相隔甚遠,每生產(chǎn)一個零件,都需要人把原料從倉庫搬到生產(chǎn)線,再把成品搬回倉庫。當零件較小時,這種模式的弊端尚不明顯;但當生產(chǎn)規(guī)模急劇擴大,搬運所消耗的能源和時間就開始成為瓶頸。

在芯片世界里,這個瓶頸有個形象的名字:“存儲墻”和“功耗墻”。英偉達CEO黃仁勛曾坦言:“GPU有70%時間在等待數(shù)據(jù)”。

屋漏偏逢連夜雨。隨著半導體工藝逼近物理極限,摩爾定律帶來的性能提升紅利逐漸消退,傳統(tǒng)芯片制程微縮的成本效益比日益降低,進一步加劇了算力供給的困境。大模型技術的迅猛發(fā)展進一步放大了這一矛盾。以GPT為代表的大語言模型參數(shù)規(guī)模從數(shù)十億增長至數(shù)千億,對存儲容量和帶寬的需求呈指數(shù)級上升。

正是在這樣的背景下,存算一體技術走到了聚光燈下。

存算一體的核心邏輯很簡潔:將計算單元之中,使數(shù)據(jù)在直接嵌入存儲陣列存儲位置即可完成計算。這個理念看似簡單,卻是芯片架構層面的范式級創(chuàng)新。

簡單來說,如果把傳統(tǒng)芯片比作一個需要頻繁出差的企業(yè):計算單元和存儲單元分屬兩地,員工(數(shù)據(jù))每天在兩點之間往返通勤,那么存算一體芯片就是一個把辦公室直接建在倉庫里的企業(yè):原材料就在手邊,隨取隨用,效率自然天壤之別。

圖片

存算一體技術目前形成了三大流派:

第一,近存計算(Near-Memory Computing, NMC)。計算單元位于存儲芯片的邏輯層,或者通過先進封裝技術與存儲器緊密集成。這類似于把倉庫和工廠建在同一個園區(qū),雖然仍在兩個地方,但距離大幅縮短。高帶寬內(nèi)存(HBM)中的邏輯層集成或3D堆疊技術就屬于這一類。

第二,存內(nèi)處理(Processing-in-Memory, PIM)。在存儲芯片的外圍電路中增加計算功能,使部分計算任務可以直接在存儲器內(nèi)部完成。這相當于在倉庫里增設了初加工車間,原材料不必全部運出廠區(qū),部分處理就能完成。

第三,存內(nèi)計算(Computing-in-Memory, CIM)。這是融合度最高的方案,直接利用存儲介質的物理特性(如電阻、電荷、磁性等)在存儲陣列內(nèi)部執(zhí)行計算操作;赟RAM、RRAM(阻變存儲器)或MRAM(磁性存儲器)的存算一體,能夠實現(xiàn)高度并行和超低功耗的計算。這已經(jīng)是把整個生產(chǎn)線搬進了倉庫。開頭論文中的芯片就屬于這一類。

三種路徑各有優(yōu)劣。近存計算實現(xiàn)難度最低,但提升幅度也相對有限;存內(nèi)計算潛力最大,但技術挑戰(zhàn)也最為嚴峻。

02

百家爭鳴:中國存算一體的技術流派與核心玩家

據(jù)預測,2025年全球存算一體芯片市場規(guī)模將突破120億美元,中國占比達30%。中國的存算一體企業(yè)在技術路線上呈現(xiàn)出豐富的多樣性,這種多樣性既來自對不同技術路徑的探索,也來自對不同應用場景的專注。

計算范式上,主要分為數(shù)字存算一體和模擬存算一體。數(shù)字存內(nèi)計算精度高、與CMOS工藝兼容性好,是目前產(chǎn)業(yè)化的主流方向。模擬存內(nèi)計算能效更高,但精度受限。數(shù);旌戏桨冈噲D在精度與能效之間尋求平衡。

存儲介質上,主流技術路線包括SRAM、DRAM、Flash和新型憶阻器(ReRAM、MRAM、PCM等)四大方向,每種介質都對應著不同的技術特點和適用場景。

SRAM存算一體方案基于CMOS工藝,可采用先進工藝節(jié)點,讀寫速度快,但存儲密度相對較低且靜態(tài)漏電流較高。DRAM方案存儲密度高于SRAM,適合處理大容量模型場景,但與CMOS工藝的兼容性較差。Flash方案具有非易失性和低功耗優(yōu)勢,但讀寫速度相對較慢。

新型憶阻器方案是近年來最受關注的探索方向。ReRAM(阻變存儲器)、MRAM(磁性存儲器)、PCM(相變存儲器)等新型存儲介質具備良好的工藝可擴展性和超低功耗特性,被認為是存算一體技術的“未來之地”。但目前,這些新型介質的工藝成熟度和良率仍是制約產(chǎn)業(yè)化的主要瓶頸。

值得一提的是,先進封裝技術是存算一體實現(xiàn)高性能的關鍵支撐。2.5D封裝通過橫向堆疊互連實現(xiàn)存儲與計算單元的集成,3D封裝則進一步實現(xiàn)垂直堆疊和極致融合。目前業(yè)內(nèi)封裝水平最高的是臺積電提出的3.5D封裝。

根據(jù)應用場景的不同,中國存算一體企業(yè)大致可分為兩個主要陣營:以數(shù)據(jù)中心、智能駕駛、端邊大模型為代表的“大算力”陣營,以及以智能穿戴、智能家居、物聯(lián)網(wǎng)為代表的“端側AI”陣營。另一條暗線是底層技術,以昕原半導體為代表的“新型存儲介質”探索者。

大算力、大模型方向

這類企業(yè)主要面向數(shù)據(jù)中心、高性能計算和智能駕駛等需要強大算力支持的場景,致力于解決大模型訓練和推理中的“存儲墻”和“功耗墻”問題。

后摩智能是大算力存算一體芯片領域的代表性企業(yè)。其技術路線以SRAM存算一體為基礎,自研第二代IPU架構——天璇。天璇架構采用按比特串行計算方式,將計算單元與存儲單元集成在一起實現(xiàn)數(shù)據(jù)就近處理。其核心技術創(chuàng)新包括彈性加速(Elastic Acceleration)技術,最高可實現(xiàn)160%的加速效果。此外,后摩智能還是業(yè)內(nèi)首個實現(xiàn)量產(chǎn)浮點運算的存算一體芯片廠商,開源或FP16浮點模型可直接運行,無需量化參數(shù)調優(yōu)。對于開發(fā)者而言,這大幅降低了遷移成本。在產(chǎn)品進展方面,后摩智能發(fā)布國內(nèi)首款大算力存算一體智駕芯片:鴻途H30,算力達到256TOPS,功耗35W,這是國內(nèi)首款存算一體的智駕芯片。2025年7月,公司發(fā)布第二代量產(chǎn)芯片——漫界M50,該芯片于2025年第四季度正式量產(chǎn)。

億鑄科技是基于存算一體架構,面向數(shù)據(jù)中心、云計算、中心側服務器等場景的AI大算力芯片公司。走的是ReRAM介質路線,據(jù)官網(wǎng)介紹其自主設計并量產(chǎn)基于新型存儲的全數(shù)字存算一體架構大算力計算芯片。此外,億鑄科技還積極擁抱RISC-V生態(tài),在AI大算力芯片領域,首批引入RISC-V核,用于承載大模型業(yè)務中的任務調度、矢量運算等操作。

端側、邊緣AI、低功耗方向

這類企業(yè)主要面向智能穿戴、智能家居、物聯(lián)網(wǎng)設備等對功耗、體積和成本有嚴格要求的場景,通過存算一體技術實現(xiàn)高效的邊緣AI計算。

圖片

微納核芯是一家值得關注的企業(yè)。微納核芯的目標是為AI手機、AI PC、IoT、一體機、服務器、機器人等大模型推理應用提供高性能、低功耗和極致性價比的芯片解決方案。微納核芯孵化于浙江省北大信息技術高等研究院,走的是CIM技術路線。在CIM的基礎上融合了“3D近存計算”和“RISC-V與存算一體異構架構”,首創(chuàng)三維存算一體(3D-CIM)架構。從多次流片迭代和測試結果表明,相比傳統(tǒng)馮·諾依曼架構,微納核芯的存內(nèi)計算CIM技術已實現(xiàn)4倍以上算力密度提升(同等成本改善)和10倍以上功耗降低。今年3月,兆易創(chuàng)新入股了微納核芯。

炬芯科技是上市公司中布局存算一體技術的代表企業(yè),公司構建CPU+DSP+NPU三核架構,創(chuàng)新采用SRAM存內(nèi)計算技術,配套ANDT工具鏈加速算法落地。在技術演進方面,炬芯科技正在推進第二代存內(nèi)計算IP研發(fā),目標實現(xiàn)單核NPU算力倍數(shù)提升、能效比優(yōu)化,并全面支持Transformer架構。

知存科技是NOR Flash存算一體技術的代表企業(yè)。知存科技的核心產(chǎn)品包括WTM2101和WTM-8系列。WTM2101是全球首款基于NOR Flash的存算一體語音芯片,于2022年1月正式量產(chǎn)。該芯片專注端側低功耗語音交互場景,功耗僅5mW,相對于NPU、DSP、MCU計算平臺,在同等功耗水平下可將算力提高10至200倍。WTM-8系列是知存科技的新一代計算視覺芯片,適用于低功耗高算力場景,支持Linux操作系統(tǒng),可實現(xiàn)AI超分、插幀、HDR、檢測與識別等功能。該系列芯片能夠提供至少24TOPS算力,而功耗僅為市場同類方案的5%。

新型存儲介質方向

昕原半導體是國內(nèi)憶阻器(ReRAM)存算一體技術產(chǎn)業(yè)化的領軍者,專注于ReRAM新型存儲技術研發(fā)和產(chǎn)業(yè)化。昕原半導體的核心產(chǎn)品是28nm制程ReRAM存儲芯片,已實現(xiàn)量產(chǎn)。公司的ATOM產(chǎn)品系列利用ReRAM兼容先進工藝的特性,將存儲和計算單元融為一體,是國內(nèi)唯一實現(xiàn)ReRAM量產(chǎn)的企業(yè)。

ReRAM(阻變存儲器)是一種新型非易失性存儲技術,具有存儲密度高、工藝和CMOS兼容、性價比高等優(yōu)勢。相比DRAM,ReRAM存儲密度可大幅提升;相比Flash,ReRAM讀寫性能更優(yōu)。昕原半導體的技術路線代表了存算一體與新型存儲介質結合的重要方向。字節(jié)跳動曾入股昕原半導體,表明其RRAM技術在VR/AR等終端設備應用中的潛力。

03

商業(yè)化落地,咋樣了?

技術領先是一回事,把技術變成產(chǎn)品是另一回事。

炬芯科技的年報顯示,炬芯科技率先在業(yè)內(nèi)實現(xiàn)存內(nèi)計算技術商業(yè)化應用,正式推出面向端側場景的AI音頻芯片。其中ATS323X芯片已快速落地品牌客戶旗艦無線麥克風并實現(xiàn)上市發(fā)售。同時在國內(nèi)頭部品牌無線電競耳機中量產(chǎn)上市,ATS362X芯片也成功切入多家專業(yè)音頻頭部品牌供應鏈。

知存科技的WTM2101芯片已實現(xiàn)超過1000萬顆的出貨量,應用于華為、小米等品牌的智能可穿戴設備中。這是目前國內(nèi)存算一體芯片商業(yè)化最成功的案例,證明了存算一體技術在端側低功耗場景的商業(yè)價值。截至目前,知存WTM-2系列累計交付30多家客戶,尤其今年上半年有某智能穿戴終端頭部客戶的大單出貨。

后摩智能的鴻途H30芯片于2024年發(fā)布,這是國內(nèi)首款存算一體的智駕芯片,已通過AEC-Q100車規(guī)認證,2025年實現(xiàn)量產(chǎn)。漫界M50芯片計劃于2025年第四季度正式量產(chǎn),已與聯(lián)想、科大訊飛、中國移動等頭部客戶建立合作意向。最近,后摩智能在開天X7等信創(chuàng)電腦上進行了本地龍蝦的適配。

微納核芯憑借3D-CIM技術架構,已與國內(nèi)頭部存儲器廠商和多家終端龍頭企業(yè)深入合作,是唯一同時與多家手機龍頭企業(yè)深度合作、且拉通手機主芯片廠商配合的3D AI芯片公司。目前,微納核芯作為RISC-V存算一體應用組組長單位,在杭州蕭山牽頭啟動全球首個RISC-V存算一體標準研制工作,聯(lián)合20余家產(chǎn)業(yè)鏈龍頭企業(yè),推動自主可控AI芯片生態(tài)建設。

億鑄科技在2023年7月成功流片并點亮了基于新型存儲的高精度、低功耗存算一體AI大算力原型技術驗證芯片,驗證了核心技術路線的可行性,2026年將推出極具性價比和軟件兼容性優(yōu)勢的國產(chǎn)AI算力卡。

04

存算一體是大模型的終極答案嗎?

隨著大模型參數(shù)規(guī)模的不斷膨脹,對算力的需求已達到前所未有的高度。存算一體技術因其獨特的優(yōu)勢,被寄予厚望,有望成為大模型時代算力瓶頸的終極解決方案。然而,這并非一蹴而就,而是一個逐步演進的過程。

存算一體在萬卡集群中的演進路徑:初期,作為專用加速器,處理特定任務(如推理、數(shù)據(jù)預處理)。在此階段,存算一體芯片將首先作為現(xiàn)有GPU萬卡集群的補充,承擔特定的計算任務。

中期,與GPU深度融合的混合架構,實現(xiàn)更高層次的協(xié)同。隨著存算一體技術的成熟和Chiplet(小芯片)技術的普及,存算一體單元將與通用計算單元(如GPU或NPU)通過先進封裝技術(如3D堆疊)進行深度融合,這種混合架構將實現(xiàn)“近存+存內(nèi)”的協(xié)同。

長期,可能出現(xiàn)以存算一體芯片為主導的新型萬卡集群,徹底顛覆現(xiàn)有架構。當新型非易失性存儲介質(如RRAM)的工藝和良率達到高度成熟,且存算一體芯片的通用性和可編程性大幅提升時,我們可能會看到以存算一體芯片為核心構建的新型萬卡集群。這種集群將徹底顛覆現(xiàn)有的馮·諾依曼架構,實現(xiàn)真正意義上的“存儲即計算”。

       原文標題 : 誰在死磕,存算一體?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號