陳左寧:解析為什么說傳統(tǒng)超算并不最適合AI
計算模式的13個“小矮人”
根據(jù)人工智能發(fā)展趨勢,可以總結出人工智能對算力的需求有幾個特點:
一是關系、概率、近似計算更加突出;同時不要求高精度和高容錯,因為都是近似的概率計算;
二是在節(jié)點上計算簡單,同時人在環(huán)路中需求非常明顯。
對軟件棧的需求,就是要求軟件棧是復雜、動態(tài)、分布式,分散的,要支撐新的場景(如原生支持分散場景等),以及架構創(chuàng)新(如軟硬件協(xié)同設計、體系結構突破等)。
陳左寧總結說,目前人工智能算法模型仍然在基本的計算模式之中——2006年,Berkeley View總結出13個基本計算模式(又稱13 dwarfs,13個“小矮人”),現(xiàn)在的算法仍然沒有跳出這些。
Berkeley View2006年總結出的“13dwarfs”
但是未來的復雜問題會不會超出這個范圍,現(xiàn)在還很難說。陳左寧提出,或許隨著我們對AI認知的加深和突破,還會出現(xiàn)新的趨勢。
經(jīng)典CPU處理AI勢必造成功耗浪費
為了說明經(jīng)典高性能計算現(xiàn)有體系結構對AI模型支持的局限性,陳左寧院士提到了AlphaGo和李世石下棋的例子:
同樣是下棋,為什么相比人,AlphaGo耗能如此之大?
人機對弈,李世石動腦所耗能量約為10MJ,AlphaGo耗能約為3000MJ ,相差2個數(shù)量級。
這其中差別,跟現(xiàn)有體系結構的限制有很大關系。
現(xiàn)在的高性能計算機,仍然是基于遵循馮·諾依曼結構的芯片架構。馮·諾依曼架構,最典型特征是“計算、存儲分離”。存算分離的優(yōu)點是,可以通過編排指令做各種復雜計算;缺點也很明顯,芯片內(nèi)的數(shù)據(jù)移動功耗大于運算功耗。
特別是,高性能處理器結構復雜,其運算功耗占比就更低;而隨著工藝的進步,互聯(lián)功耗占比還會越來越大。
馮·諾依曼結構之所以設計成存算分離,是為了方便用復雜的指令系統(tǒng)去搞定復雜計算。
但AI不同,它不需要復雜的節(jié)點計算,也不需要復雜的指令系統(tǒng)。
這解釋了,經(jīng)典CPU處理AI勢必會造成很多功耗是浪費的——這也是人們?yōu)槭裁囱芯亢桶l(fā)展AI芯片的緣故。
現(xiàn)有支持AI的超算體系結構,在節(jié)點間尺度上多為同構系統(tǒng),比如美國的Summit、中國的“神威·太湖之光”,都是大節(jié)點同構、但節(jié)點內(nèi)尺度上有異構形式(如CPU+GPU/FPGA等)。CPU、GPU、FPGA以及張量加速單元(TPU),能夠實現(xiàn)復雜的并行;但人工智能硬件重點關注深度神經(jīng)網(wǎng)絡這類模型:適度的低精度計算、可對部分簡單算子(如矩陣乘、向量計算等)加速等。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字