訂閱
糾錯(cuò)
加入自媒體

人形機(jī)器人行動(dòng)困局:非軟非硬,而是“協(xié)同失語癥”

圖片

 

業(yè)內(nèi)流傳著“不做硬件的具身智能公司,不是好公司”,其背后邏輯是:如果想在軟件上登峰造極,必須深度理解硬件特性,而要發(fā)揮硬件極限也需軟件在架構(gòu)與調(diào)度層面予以配合。這種融合,需從設(shè)計(jì)之初就埋入系統(tǒng)。現(xiàn)實(shí),聽到廠商抱怨算法根本不懂硬件,做硬件的不會(huì)算法,兩撥人幾乎是各自為戰(zhàn)。

作者:彭堃方

 編輯:呂鑫燚

出品:具身研習(xí)社

 

是什么桎梏了人形機(jī)器人的行動(dòng)?到底是硬件跟不上還是軟件能力不足?關(guān)于這一問題,業(yè)內(nèi)的爭(zhēng)議已經(jīng)展開。

在不久前的ALL-IN SUMMIT上,馬斯克被問及Optimus目前硬件與軟件哪個(gè)更難突破?他坦言:我們?nèi)栽跒橛布淖罱K設(shè)計(jì)而掙扎。而當(dāng)主持人追問:假如硬件挑戰(zhàn)得以解決,基于大語言模型(LLM)的進(jìn)展,是否就能實(shí)現(xiàn)自然的人機(jī)交互,使機(jī)器人聽懂指令、執(zhí)行任務(wù)?馬斯克則信心十足地回應(yīng):沒問題。

 

圖片

圖片來源:ALL-INSUMMIT

馬斯克硬件焦慮形成鮮明對(duì)比的是,宇樹科技王興興則在多場(chǎng)合表示“硬件夠用了”,相反在AI領(lǐng)域,他認(rèn)為“讓AI干活整個(gè)領(lǐng)域目前都是荒漠”。王興興認(rèn)為,目前數(shù)據(jù)和模型都是機(jī)器人的難點(diǎn)。AI模型本身的能力也還不太夠,沒辦法讓機(jī)器人真正用起來,比如AI模型難以很好地控制靈巧手。

這兩種看似對(duì)立的觀點(diǎn),恰恰反映出同一本質(zhì)困境問題的核心或許并不在于“軟”或“硬”單一維度的落后,而在于二者之間缺乏有效的協(xié)同與融合。

而這問題的答案也不應(yīng)該整機(jī)廠回答,更應(yīng)該聽聽上游的聲音。

近日,具身研習(xí)社和亞德諾半導(dǎo)體(ADI)進(jìn)行溝通,作為上游核心硬件和解決方案提供商,其視角跳出了單一的軟硬件孰優(yōu)孰劣的二元對(duì)立視角,轉(zhuǎn)而以“協(xié)同”思路判斷。

ADI院士兼技術(shù)副總裁陳寶興表示,問題的核心在于AI硬件的深度集成。“比如抓取一個(gè)雞蛋或其他物品,就需要優(yōu)化。機(jī)器人需要知道物體的性質(zhì)、用多大的力、如何防滑等具體要求。這些都需要硬件與軟件、AI與控制的深度集成,我認(rèn)為這還有大量的工作要做。”

或許是為什么我們很難看到靈敏的、聰慧的、動(dòng)作有的放矢的機(jī)器人。已經(jīng)超出了單純的軟件或硬件所能獨(dú)自解決范圍,如何讓軟硬件更好的系統(tǒng)性協(xié)同或許是未來的主要攻關(guān)方向。

圖片

硬件真的夠用了嗎?

自從王興興在WRC說出:“目前的硬件某種意義上是完全夠用的”,一時(shí)間引發(fā)了業(yè)內(nèi)巨大爭(zhēng)議。但事實(shí)上,王興興旋即就提到了一個(gè)硬件普遍的難點(diǎn)“更大的問題是把它(硬件)量產(chǎn)”。無獨(dú)有偶,馬斯克甚至直言:人形機(jī)器人沒有供應(yīng)鏈,必須從頭開始,自己設(shè)計(jì)。這也是他的量產(chǎn)計(jì)劃推遲的重要原因。

因此硬件的第一個(gè)明顯的難點(diǎn)是“缺乏標(biāo)準(zhǔn)”。即便市面上已有成千上萬種來自工業(yè)、汽車等領(lǐng)域復(fù)用的零部件,卻始終缺少專為機(jī)器人設(shè)計(jì)的。簡(jiǎn)單來說,硬件能用,并不是好用的,因此也有了業(yè)內(nèi)流傳觀點(diǎn)硬件制約軟件成為束縛模型落地現(xiàn)狀。

造成現(xiàn)場(chǎng)的根本原因在于:其一,人形機(jī)器人屬于初期階段體量供應(yīng),并不愿意分散精力投入到一個(gè)利潤(rùn)極為有限,財(cái)報(bào)無法增色的產(chǎn)線上去。所以,各種零部件的不適配加上特定零部件的量產(chǎn)能力、良品率等問題,最終讓這個(gè)在技術(shù)上已經(jīng)鮮有卡點(diǎn),但工程化問題卻十分明顯的硬件,成了人形機(jī)器人鋪展開的一道障礙。

其二,不同人形機(jī)器人廠商技術(shù)路線相差巨大,不管是本體硬件也好,亦或者是大腦模型,技術(shù)均未進(jìn)入收斂期,不同的AI算法統(tǒng)一的硬件平臺(tái)之間更加難以匹配,于是誕生了另一道障礙,硬件“缺乏AI能力”的問題。

換句話說,硬件與軟件之間過于解耦,就像提線木偶一樣。因此,當(dāng)前真正的難點(diǎn)在于缺乏如同智能硬件強(qiáng)調(diào)的AI原生設(shè)計(jì),寶興口中所說要加速人形機(jī)器人的創(chuàng)新和落地,最重要的是AI與物理智能緊密、深度融合。

陳寶興把“AI和物理智能”的關(guān)系類比成“大腦跟身體”的關(guān)系,比如AI是機(jī)器人的“大腦”,負(fù)責(zé)學(xué)習(xí)、推理、決策。物理智能是“身體”,負(fù)責(zé)感知、運(yùn)動(dòng)、與環(huán)境互動(dòng)。他認(rèn)為只有兩者深度融合,機(jī)器才能像人一樣靈活、聰明、可靠。

物理智能的核心是高性能傳感器,ADI的機(jī)器人團(tuán)隊(duì)正致力于將其傳感器和執(zhí)行器模型集成進(jìn) NVIDIA 的 Isaac Sim 平臺(tái),如此可以模擬真實(shí)世界的物理反饋,訓(xùn)練可直接部署的控制策略,從而實(shí)現(xiàn)Sim2Real,從仿真到現(xiàn)實(shí)的突破路徑。

ADI認(rèn)為想要實(shí)現(xiàn)物理智能有兩個(gè)要點(diǎn),這也正是目前ADI主要發(fā)力點(diǎn):第一,要能夠與大腦(即中央處理單元)配合;第二,要注重與小腦(即類似脊髓反應(yīng)相關(guān)的部分)緊密相關(guān),例如神經(jīng)元層面的功能——包括感知神經(jīng)元、運(yùn)動(dòng)神經(jīng)元,以及靈巧性方面的實(shí)現(xiàn)。

舉個(gè)例子,電機(jī)、驅(qū)動(dòng)器能否快速、精準(zhǔn)地執(zhí)行AI下達(dá)的“非標(biāo)”指令?例如,如何讓一個(gè)關(guān)節(jié)在需要時(shí)瞬間輸出爆發(fā)力(如起跳),又能實(shí)現(xiàn)極精細(xì)的力度控制(如捏住雞蛋)?這過程中,就要求硬件本身具備低延時(shí)、高帶寬、高精度的特性,并能進(jìn)行包括觸覺在內(nèi)的多維傳感器的數(shù)據(jù)傳輸進(jìn)行邊云間通信與計(jì)算,這都要求AI算法深度適配。

 

圖片

圖片來源:特斯拉

這樣看來,硬件的問題不僅僅是單純的“缺乏行業(yè)標(biāo)準(zhǔn)”,又或者是更具體的“力量”“成本”“尺寸”“可靠性”等指標(biāo),而是如何被AI高效、精準(zhǔn)、低延遲地驅(qū)動(dòng)和控制的問題。這本質(zhì)上是一個(gè)軟硬件協(xié)同設(shè)計(jì)的難題。

圖片

從“軟硬全棧”到“軟硬融合”

長(zhǎng)期一段時(shí)間,軟硬件兩手抓的企業(yè)成為資本市場(chǎng)的寵兒。但這里有一個(gè)誤區(qū),“軟硬件全棧”應(yīng)該超PR層,進(jìn)入到真實(shí)的“軟硬件協(xié)同”“軟硬件融合”,就像我們說“AI原生硬件”一樣,機(jī)器人本身作為大AI硬件在規(guī)劃、研發(fā)階段就圍繞AI進(jìn)行設(shè)計(jì)與搭建。

業(yè)內(nèi)流傳著“不做硬件的具身智能公司,不是好公司”,反之也有人贊同。其背后邏輯是:如果你想在軟件上登峰造極,必須深度理解硬件特性,而要發(fā)揮硬件極限也需軟件在架構(gòu)與調(diào)度層面予以配合。這種融合,需從設(shè)計(jì)之初就埋入系統(tǒng)。現(xiàn)實(shí),聽到廠商抱怨算法根本不懂硬件,做硬件的不會(huì)算法兩撥人幾乎是各自為戰(zhàn)。

總之,軟硬一體化策略成果案例在手機(jī)賽道已經(jīng)很多了,如蘋果、小米、華為等不再贅述。就說狹義上的模型廠商也有像OpenAI收購(gòu)io,要做AI原生硬件;Meta做AI眼鏡;字節(jié)做AI耳機(jī)釘釘做AI錄音硬件等。

目前來看,具身智能賽道也有部分企業(yè)意識(shí)到這種融合的重要性,這部分企業(yè)可以分為兩種,一種是意識(shí)到軟硬件協(xié)同的。硬件在設(shè)計(jì)階段就通盤考慮,有清晰的接口和分工,是目前主流努力的方向。這些企業(yè)會(huì)預(yù)留開發(fā)接口,為特殊場(chǎng)景設(shè)計(jì)硬件構(gòu)型、尺寸以及加裝定制參數(shù)的零部件、功能模塊。

當(dāng)然這是較普遍的做法,更高階的狀態(tài)應(yīng)該是融合。它打破了傳統(tǒng)的軟硬件界限,你中有我,我中有你。硬件為軟件算法而生,軟件為硬件特性而寫。

例如,為特定的強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)專用的計(jì)算芯片和傳感器;在AI模型訓(xùn)練中引入硬件物理響應(yīng)(如彈性、摩擦系數(shù))的建模;硬件的設(shè)計(jì)也會(huì)為了適應(yīng)AI的決策頻率而優(yōu)化,比如模型推理間隙,由端側(cè)芯片自主完成觸覺反射調(diào)節(jié)。

當(dāng)前僅有少數(shù)領(lǐng)頭羊開始探索“融合”,大多數(shù)企業(yè)仍未進(jìn)入軟硬件“協(xié)同”階段。

正是因此,軟硬融合會(huì)是具身企業(yè)競(jìng)爭(zhēng)力新機(jī)會(huì),會(huì)推動(dòng)具身賽道走向進(jìn)一步落地。遠(yuǎn)本體廠商自己的命題上游一同努力。

例如,ADI作為上游廠商,在讓機(jī)器具備有思想、有觸感和有行動(dòng)力的過程中,主要針對(duì)四個(gè)關(guān)鍵環(huán)節(jié):感知(sense)、連接(connect)、解譯(interpret)、控制(control),而這四個(gè)環(huán)節(jié)正好串聯(lián)起機(jī)器人軟硬件協(xié)同。

從感知看,機(jī)器人需具備視覺、觸覺等能力,未來通過“多模態(tài)感知融合” 判斷物體形態(tài)、提升靈巧度;從連接看,機(jī)器人需高速穩(wěn)定的 “神經(jīng)網(wǎng)絡(luò)” 連接;而解譯則是對(duì)這些傳感器原始數(shù)據(jù)和各部件動(dòng)態(tài)信息進(jìn)行分析、理解;進(jìn)而控制系統(tǒng)作為機(jī)器人“大腦皮層”,負(fù)責(zé)運(yùn)動(dòng)規(guī)劃與執(zhí)行,最新 AI 驅(qū)動(dòng)的運(yùn)動(dòng)控制算法可實(shí)現(xiàn)其多關(guān)節(jié)協(xié)調(diào)與復(fù)雜動(dòng)作。

我們可以看到,硬件軟件之間的結(jié)合部存在明顯短板,蘊(yùn)藏眾多機(jī)會(huì)。

人形機(jī)器人的發(fā)展,一定是一場(chǎng)軟硬件協(xié)同進(jìn)化的旅程。不是硬件夠了軟件沒跟上,或者軟件行了硬件拖后腿,而是它們必須像生物界的腦與身體一樣,彼此塑造、耦合反饋、不可分割。未來的突破,將依賴于我們能否用技術(shù)創(chuàng)新與工程智慧加速這一“共同進(jìn)化”的過程。

       原文標(biāo)題 : 人形機(jī)器人行動(dòng)困局:非軟非硬,而是“協(xié)同失語癥”

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)