123,123,123

陳左寧：解析為什么說傳統(tǒng)超算并不最適合AI

2020-10-19 11:24

本來科技

關(guān)注

計算模式的13個“小矮人”

根據(jù)人工智能發(fā)展趨勢,可以總結(jié)出人工智能對算力的需求有幾個特點:

一是關(guān)系、概率、近似計算更加突出;同時不要求高精度和高容錯,因為都是近似的概率計算;

二是在節(jié)點上計算簡單,同時人在環(huán)路中需求非常明顯。

對軟件棧的需求,就是要求軟件棧是復(fù)雜、動態(tài)、分布式,分散的,要支撐新的場景(如原生支持分散場景等),以及架構(gòu)創(chuàng)新(如軟硬件協(xié)同設(shè)計、體系結(jié)構(gòu)突破等)。

陳左寧總結(jié)說,目前人工智能算法模型仍然在基本的計算模式之中——2006年,Berkeley View總結(jié)出13個基本計算模式(又稱13 dwarfs,13個“小矮人”),現(xiàn)在的算法仍然沒有跳出這些。

Berkeley View2006年總結(jié)出的“13dwarfs”

但是未來的復(fù)雜問題會不會超出這個范圍,現(xiàn)在還很難說。陳左寧提出,或許隨著我們對AI認(rèn)知的加深和突破,還會出現(xiàn)新的趨勢。

經(jīng)典CPU處理AI勢必造成功耗浪費

為了說明經(jīng)典高性能計算現(xiàn)有體系結(jié)構(gòu)對AI模型支持的局限性,陳左寧院士提到了AlphaGo和李世石下棋的例子:

同樣是下棋,為什么相比人,AlphaGo耗能如此之大?

人機對弈,李世石動腦所耗能量約為10MJ,AlphaGo耗能約為3000MJ ,相差2個數(shù)量級。

這其中差別,跟現(xiàn)有體系結(jié)構(gòu)的限制有很大關(guān)系。

現(xiàn)在的高性能計算機,仍然是基于遵循馮·諾依曼結(jié)構(gòu)的芯片架構(gòu)。馮·諾依曼架構(gòu),最典型特征是“計算、存儲分離”。存算分離的優(yōu)點是,可以通過編排指令做各種復(fù)雜計算;缺點也很明顯,芯片內(nèi)的數(shù)據(jù)移動功耗大于運算功耗。

特別是,高性能處理器結(jié)構(gòu)復(fù)雜,其運算功耗占比就更低;而隨著工藝的進步,互聯(lián)功耗占比還會越來越大。

馮·諾依曼結(jié)構(gòu)之所以設(shè)計成存算分離,是為了方便用復(fù)雜的指令系統(tǒng)去搞定復(fù)雜計算。

但AI不同,它不需要復(fù)雜的節(jié)點計算,也不需要復(fù)雜的指令系統(tǒng)。

這解釋了,經(jīng)典CPU處理AI勢必會造成很多功耗是浪費的——這也是人們?yōu)槭裁囱芯亢桶l(fā)展AI芯片的緣故。

現(xiàn)有支持AI的超算體系結(jié)構(gòu),在節(jié)點間尺度上多為同構(gòu)系統(tǒng),比如美國的Summit、中國的“神威·太湖之光”,都是大節(jié)點同構(gòu)、但節(jié)點內(nèi)尺度上有異構(gòu)形式(如CPU+GPU/FPGA等)。CPU、GPU、FPGA以及張量加速單元(TPU),能夠?qū)崿F(xiàn)復(fù)雜的并行;但人工智能硬件重點關(guān)注深度神經(jīng)網(wǎng)絡(luò)這類模型:適度的低精度計算、可對部分簡單算子(如矩陣乘、向量計算等)加速等。