訂閱
糾錯(cuò)
加入自媒體

具身智能落地,開(kāi)始補(bǔ)“感知”這一課

作者|向欣

具身智能行業(yè)的一個(gè)共識(shí)是,今年將會(huì)成為人形機(jī)器人的量產(chǎn)落地元年。

規(guī)模鋪開(kāi)的同時(shí),機(jī)器人面對(duì)的環(huán)境也在發(fā)生變化:實(shí)驗(yàn)室里的結(jié)構(gòu)化場(chǎng)景,正逐漸讓位于更加開(kāi)放的現(xiàn)實(shí)世界。

機(jī)器人一旦進(jìn)入真實(shí)環(huán)境,感知層的重要性就會(huì)迅速凸顯,而這一層能力在過(guò)去長(zhǎng)期被低估。

機(jī)器人的執(zhí)行閉環(huán)是「感知—決策—動(dòng)作」。感知一旦掉鏈子,后續(xù)的操作和決策將無(wú)法有效執(zhí)行。

最近的人形機(jī)器人半程馬拉松就是一個(gè)開(kāi)放場(chǎng)景——長(zhǎng)時(shí)間戶外奔跑、光照變化、路面起伏,讓不少機(jī)器人的感知系統(tǒng)暴露出不穩(wěn)定的問(wèn)題。

快到終點(diǎn)的人形機(jī)器人突然轉(zhuǎn)彎跑進(jìn)人群

一套足夠穩(wěn)定、精準(zhǔn)的感知系統(tǒng),是機(jī)器人能否在開(kāi)放環(huán)境中可靠工作的前提。

也正因此,感知層那些原本低存在感的核心零部件,正在被重新估值,感知層,成為機(jī)器人落地的關(guān)鍵卡口之一。

順著這條邏輯往下看,機(jī)器人感知能力大致可以分為三層:環(huán)境感知、本體狀態(tài)感知,以及交互與操作感知。

看見(jiàn)世界——環(huán)境感知傳感器

環(huán)境感知是機(jī)器人進(jìn)入真實(shí)場(chǎng)景的第一道門(mén)檻。它決定機(jī)器人能不能識(shí)別物體、理解空間、判斷距離,從而完成導(dǎo)航、避障和抓取定位。

在這一層,核心硬件主要包括兩類(lèi):

一是視覺(jué)傳感器,包括 RGB 相機(jī)、雙目相機(jī)、深度相機(jī)、魚(yú)眼相機(jī),主要提供圖像、紋理和部分深度信息;

二是空間感知類(lèi)傳感器,主要為激光雷達(dá),提供穩(wěn)定的距離和空間結(jié)構(gòu)信息。

奧比中光Gemini 330系列雙目3D相機(jī)

不過(guò),在真實(shí)環(huán)境中,采集到圖像信息,并不意味著機(jī)器人已經(jīng)能看懂周?chē)h(huán)境。

例如,在復(fù)雜光照、動(dòng)態(tài)人流和室內(nèi)外交替的環(huán)境中,RGB 相機(jī)獲取的畫(huà)面很容易失真。逆光條件下,目標(biāo)區(qū)域可能變得昏暗難辨;強(qiáng)反光會(huì)削弱物體邊緣和輪廓信息;到了夜間,圖像質(zhì)量還會(huì)進(jìn)一步下降。

環(huán)境中的人和物持續(xù)移動(dòng),也會(huì)增加識(shí)別和定位難度,視覺(jué)系統(tǒng)容易出現(xiàn)目標(biāo)丟失、距離判斷偏差等問(wèn)題。

除了復(fù)雜光照下穩(wěn)定性不夠,動(dòng)態(tài)場(chǎng)景理解難的問(wèn)題,環(huán)境感知層面還有兩個(gè)難點(diǎn)。

一個(gè)是手眼協(xié)同要求高。視覺(jué)與激光雷達(dá)的觀測(cè)會(huì)隨肢體運(yùn)動(dòng)產(chǎn)生動(dòng)態(tài)畸變、視角跳變、運(yùn)動(dòng)模糊,導(dǎo)致目標(biāo)位置與深度測(cè)量出現(xiàn)瞬時(shí)誤差。

手、眼、物體三者的相對(duì)位姿需要亞厘米級(jí)甚至更高精度的實(shí)時(shí)匹配,稍有偏差就會(huì)導(dǎo)致抓取偏移、碰撞或跟蹤丟失。

另一個(gè)是算力與延遲壓力大。

視覺(jué)和激光雷達(dá)本身都是高數(shù)據(jù)量傳感器。攝像頭持續(xù)輸出圖像流,激光雷達(dá)持續(xù)輸出點(diǎn)云。而機(jī)器人通常需要裝多個(gè)傳感器,多目相機(jī)、深度相機(jī)、魚(yú)眼相機(jī)、激光雷達(dá)一起工作。

這樣一來(lái),前端采集到的數(shù)據(jù)量會(huì)非常大,但多源信息融合、3D 建圖、目標(biāo)檢測(cè)與跟蹤、動(dòng)態(tài)障礙物分割等算法本身復(fù)雜度高,因此對(duì)端側(cè)算力提出很高要求。

其次,環(huán)境信息處理一旦不夠及時(shí),哪怕只是數(shù)百毫秒的延后,經(jīng)過(guò)層層傳遞,系統(tǒng)拿到的也可能已經(jīng)落后于現(xiàn)場(chǎng)變化。

這會(huì)導(dǎo)致路徑判斷出現(xiàn)偏差,避障反應(yīng)變慢,抓取位置不準(zhǔn),還會(huì)進(jìn)一步影響整機(jī)動(dòng)作的穩(wěn)定性。

因此,機(jī)器人進(jìn)入真實(shí)場(chǎng)景后,環(huán)境感知器件需要進(jìn)行一輪明顯的升級(jí),從基礎(chǔ)的視覺(jué)采集,升級(jí)為精準(zhǔn)識(shí)別、穩(wěn)定跟蹤與空間理解能力。

圍繞這些問(wèn)題,行業(yè)當(dāng)前的重點(diǎn)方向主要集中在深度感知和空間理解兩個(gè)方面。

所謂深度感知,就是讓機(jī)器人在識(shí)別目標(biāo)之外,進(jìn)一步獲得距離、輪廓和空間層次信息。

空間理解則是在此基礎(chǔ)上,對(duì)場(chǎng)景結(jié)構(gòu)、障礙物分布、目標(biāo)物體與周?chē)h(huán)境的關(guān)系形成更完整的判斷。

沿著這個(gè)方向,行業(yè)出現(xiàn)了兩種解法:

從二維看圖像升級(jí)到三維空間理解;

向多傳感器融合演進(jìn):從單一視覺(jué)升級(jí)到視覺(jué)+激光雷達(dá)等融合方案。

在這一過(guò)程中,一批代表性企業(yè)已經(jīng)沿著不同路線展開(kāi)布局。

奧比中光的重點(diǎn)落在深度視覺(jué)能力上。其 Gemini 330 系列雙目 3D 相機(jī)搭載面向機(jī)器人場(chǎng)景自研的深度引擎芯片 MX6800,結(jié)合主動(dòng)與被動(dòng)成像技術(shù),能夠在黑暗、強(qiáng)光等差異較大的光照條件下輸出較為穩(wěn)定的三維數(shù)據(jù)。

禾賽的思路更偏向空間數(shù)據(jù)采集與場(chǎng)景還原。其推出的空間智能 AI 硬件產(chǎn)品 Kosmo,將定制化激光雷達(dá)、多個(gè)攝像頭、空間感知算法和 AIGC 能力集成到一個(gè)小型設(shè)備中,能夠把物理三維世界還原為對(duì)應(yīng)的數(shù)字化三維場(chǎng)景。

速騰聚創(chuàng)則在多傳感器融合和系統(tǒng)簡(jiǎn)化方向上推進(jìn)。其推出的 Active Camera,被定位為「機(jī)器人之眼」,將深度、色彩和姿態(tài)三類(lèi)核心感知信息在芯片層面進(jìn)行集成,實(shí)現(xiàn)毫秒級(jí)時(shí)空同步。

相比傳統(tǒng)多傳感器疊加方案,這種做法減少了系統(tǒng)復(fù)雜度,也有助于提升感知結(jié)果的一致性和響應(yīng)效率。

各家廠商的側(cè)重點(diǎn)雖有不同,但目標(biāo)一致:

讓機(jī)器人在復(fù)雜多變的真實(shí)場(chǎng)景中,獲得足夠穩(wěn)定、精準(zhǔn)的空間理解能力。

感知自己——本體狀態(tài)感知傳感器

光有對(duì)環(huán)境的基礎(chǔ)感知還不夠。機(jī)器人要想在動(dòng)態(tài)中保持平衡、精確出力,還需要另一套「體內(nèi)感官」——感知自己。

人形機(jī)器人是一個(gè)高動(dòng)態(tài)系統(tǒng),走路、轉(zhuǎn)身、上下坡、受擾動(dòng)、落腳時(shí),都需要實(shí)時(shí)知道自己的姿態(tài)、速度和受力變化,才能維持平衡、控制發(fā)力,并完成更穩(wěn)定的動(dòng)作執(zhí)行。

支撐這一層能力的核心器件,主要可以分為兩類(lèi):

一類(lèi)是慣性傳感器,代表產(chǎn)品是 IMU,它相當(dāng)于具身智能機(jī)器人的「小腦」與前庭系統(tǒng),核心用于測(cè)量自身角速度、線性加速度,支撐姿態(tài)估計(jì)與動(dòng)態(tài)平衡。

另一類(lèi)是力矩與力傳感器,包括關(guān)節(jié)扭矩傳感器、六維力傳感器和足底力傳感器,負(fù)責(zé)感知關(guān)節(jié)、腕部、足底等位置的受力變化。

本體狀態(tài)感知層的難點(diǎn)主要集中在三點(diǎn)。

第一,對(duì)響應(yīng)速度和穩(wěn)定性要求很高。

如果本體狀態(tài)感知出現(xiàn)延遲,后續(xù)控制就容易滯后,打亂動(dòng)作節(jié)奏。同時(shí),在執(zhí)行高動(dòng)態(tài)動(dòng)作的過(guò)程中,震動(dòng)、沖擊、快速轉(zhuǎn)向和落地反饋又會(huì)放大誤差,影響就會(huì)傳遞到整條控制鏈路中。

第二,量產(chǎn)階段對(duì)一致性提出了更高要求。

樣機(jī)能夠跑通,并不意味著批量產(chǎn)品在長(zhǎng)時(shí)間運(yùn)行中也能保持同樣穩(wěn)定的表現(xiàn)。機(jī)器人進(jìn)入量產(chǎn)后,傳感器的一致性和可靠性會(huì)變得更加關(guān)鍵。

第三,小型化、集成和成本壓力并存。

六維力和力矩傳感器通常要安裝在腕部、夾爪末端甚至靈巧手等空間有限的位置,既要做得足夠小,又要兼顧測(cè)量精度、結(jié)構(gòu)強(qiáng)度和系統(tǒng)兼容性。

而且這類(lèi)器件的成本一直偏高。以特斯拉機(jī)器人為例,雙腳所用的兩個(gè)六維力傳感器成本就達(dá)到 6700 美元。

因此,傳感器的小型化、高動(dòng)態(tài)適應(yīng)性和量產(chǎn)一致性,是當(dāng)前行業(yè)攻堅(jiān)的重點(diǎn)。

在這個(gè)領(lǐng)域內(nèi),出現(xiàn)了兩種代表性玩家。

一類(lèi)是從智駕領(lǐng)域切入、在汽車(chē)體系里積淀深厚的玩家,以導(dǎo)遠(yuǎn)科技為代表。

導(dǎo)遠(yuǎn)科技推出了車(chē)規(guī)級(jí) IMU 模組 IMU5146,并已向銀河通用交付。

該 IMU 模組姿態(tài)測(cè)量精度達(dá)到 0.05°,輸出頻率 1000Hz 且延遲極低,能夠?qū)崟r(shí)捕捉機(jī)器人的微小傾斜與晃動(dòng),有效避免響應(yīng)滯后導(dǎo)致的失衡。

更重要的是,導(dǎo)遠(yuǎn)把車(chē)規(guī)級(jí)的可靠性、一致性和量產(chǎn)能力帶入了機(jī)器人自身感知層。

其產(chǎn)品支持-40℃至 105℃寬溫運(yùn)行,可承受 2000g 極限沖擊,適配人形機(jī)器人在跳躍、翻滾等高強(qiáng)度動(dòng)態(tài)下的感知需求。

此外,導(dǎo)遠(yuǎn)擁有從底層芯片、算法軟件到模組系統(tǒng)及精密制造的全棧能力,能夠從芯片級(jí)開(kāi)始定義產(chǎn)品邏輯,具備較高的靈活性。

基于這種可擴(kuò)展、高可靠且經(jīng)濟(jì)高效的時(shí)空智能解決方案,導(dǎo)遠(yuǎn)已經(jīng)成功從汽車(chē)向機(jī)器人、工程機(jī)械、可再生能源系統(tǒng)等領(lǐng)域快速擴(kuò)張。

另一類(lèi)是以坤維科技和鑫精誠(chéng)為代表的專(zhuān)業(yè)力傳感器廠商。

坤維科技推出了專(zhuān)為人形機(jī)器人手腕和腳踝設(shè)計(jì)的 HRS 人形系列,最薄尺寸僅 10 毫米,重復(fù)精度優(yōu)于 0.1%FS,已批量供貨優(yōu)必選、智元、銀河通用等頭部企業(yè)。

鑫精誠(chéng)則聚焦 MEMS 六維力傳感器,已完成試樣驗(yàn)證并形成小批量訂單,正在建立覆蓋指尖、手腕、腳踝三大關(guān)鍵部位的自動(dòng)化產(chǎn)線,布局更多指向后續(xù)的規(guī);┙o能力。

接觸世界——交互與操作感知傳感器

有了視覺(jué)和本體感知,機(jī)器人可以走路、避障、站得穩(wěn)。但要真正干活,比如插拔接口、捏起一顆雞蛋、整理柔軟的衣物——它還缺一層最接近皮膚的能力:觸覺(jué)。

很多具身智能的高價(jià)值任務(wù),都是精細(xì)操作任務(wù),拿起、放下、插接、裝配、抓柔性物體,都依賴(lài)細(xì)膩的觸覺(jué)反饋。

雖然觸覺(jué)感知傳感器還遠(yuǎn)沒(méi)有像環(huán)境感知和自身感知那樣成熟,但它很可能成為下一階段靈巧操作的分水嶺。

現(xiàn)階段常見(jiàn)的觸覺(jué)傳感器主要包括電子皮膚、指尖觸覺(jué)、陣列式壓力傳感器和視觸覺(jué)傳感器。

它們分布在機(jī)器人手部、夾爪和末端執(zhí)行器等位置,承擔(dān)接觸檢測(cè)、壓力感知、材質(zhì)識(shí)別和形變判斷等任務(wù)。

這一領(lǐng)域面臨諸多難點(diǎn)。

首先,觸覺(jué)數(shù)據(jù)目前缺少足夠成熟產(chǎn)品和標(biāo)準(zhǔn)體系。

一位具身智能公司的創(chuàng)始人曾表示,目前市面上沒(méi)有成熟且可規(guī)模應(yīng)用的觸覺(jué)傳感器產(chǎn)品。不同產(chǎn)品、不同方案之間的定義和采集方式并不統(tǒng)一,導(dǎo)致數(shù)據(jù)復(fù)用難度較高。

其次,耐久性仍然是一個(gè)現(xiàn)實(shí)問(wèn)題。觸覺(jué)傳感器長(zhǎng)期處在接觸、摩擦、擠壓的工作狀態(tài)中,對(duì)壽命和穩(wěn)定性的要求很高。

而且,觸覺(jué)傳感器的集成難度同樣非常高。手指和末端執(zhí)行器的空間有限,傳感器既要做得薄,還要兼顧靈敏度和穩(wěn)定性。

同時(shí),在算法上也難以融合。觸覺(jué)信號(hào)和視覺(jué)、動(dòng)作控制之間的協(xié)同仍然比較復(fù)雜,算法融合還在持續(xù)摸索。

最后是同樣存在的成本問(wèn)題,觸覺(jué)至今還沒(méi)有像視覺(jué)那樣走到大規(guī)模低成本普及的階段。

因此,在觸覺(jué)這一層,很多公司還在解決耐久性、成本和數(shù)據(jù)難題。

帕西尼感知的布局重點(diǎn)放在兩端,一端是傳感器產(chǎn)品本身,另一端是圍繞觸覺(jué)構(gòu)建的數(shù)據(jù)體系。

產(chǎn)品層面,帕西尼推出了多維觸覺(jué)傳感器 PX-6AX-GEN3,可輸出六維力、力分布、材質(zhì)、溫度、回彈等多類(lèi)觸覺(jué)信息,具備耐磨抗穿刺與 1000 萬(wàn)次的超高工業(yè)級(jí)使用壽命,在 0~50°C 的高低溫環(huán)境下,也能進(jìn)行高一致性的觸覺(jué)信息輸出。

帕西尼還在建設(shè)全模態(tài)數(shù)據(jù)采集工廠,除了 2025 年 4 月在天津落成的全球最大全模態(tài)超級(jí)數(shù)據(jù)采集工廠 Super EID Factory 外,還計(jì)劃在江蘇宿遷、湖北武漢、四川自貢、江西贛州再建 4 座超級(jí)數(shù)據(jù)采集工廠;并與云廠商合作推進(jìn)大規(guī)模具身智能數(shù)據(jù)云商城。

他山科技的切入點(diǎn)更偏底層芯片和感知能力融合。

其研發(fā)的數(shù);旌 AI 觸感芯片,能夠支持高精度三維力感知,也能夠識(shí)別部分材質(zhì)信息和近距離接觸特征。

戴盟機(jī)器人則把重點(diǎn)放在觸覺(jué)數(shù)據(jù)集建設(shè)上,聯(lián)合多家學(xué)術(shù)機(jī)構(gòu)與企業(yè),發(fā)布了全球最大規(guī)模含觸覺(jué)全模態(tài)物理世界具身數(shù)據(jù)集 Daimon-Infinity。

戴盟稱(chēng),Daimon-Infinity 提供了目前行業(yè)內(nèi)最高質(zhì)量的觸覺(jué)數(shù)據(jù)。

Daimon-Infinity 數(shù)據(jù)集依托于戴盟自研的二指夾爪及五指手套數(shù)據(jù)采集設(shè)備,其搭載的含 11 萬(wàn)感知單元、120Hz 高頻率視觸覺(jué)傳感器,配合魚(yú)眼相機(jī)、編碼器、IMU、雙目相機(jī),為數(shù)據(jù)集提供觸覺(jué)、視覺(jué)、動(dòng)作軌跡、執(zhí)行動(dòng)作、語(yǔ)音文本等全維度信息。

總體來(lái)看,機(jī)器人感知能力的推進(jìn)路徑,對(duì)應(yīng)著三個(gè)層次的競(jìng)爭(zhēng)焦點(diǎn);

視覺(jué)為主的環(huán)境感知傳感器是入口,負(fù)責(zé)讓機(jī)器人看見(jiàn)并理解環(huán)境;

力覺(jué)為主的本體狀態(tài)感知傳感器是當(dāng)下的卡點(diǎn),決定了機(jī)器人在動(dòng)態(tài)世界中能否站穩(wěn)、發(fā)力、安全交互;

觸覺(jué)是下一階段的突破口,將真正區(qū)分「能動(dòng)的機(jī)器人」和「能干的機(jī)器人」。

無(wú)論是馬拉松賽場(chǎng)、工廠產(chǎn)線,還是倉(cāng)儲(chǔ)分揀、家庭服務(wù),人形機(jī)器人的規(guī);涞囟际加诟兄到y(tǒng)。

感知層采集的信息質(zhì)量會(huì)層層傳導(dǎo),影響后續(xù)決策和動(dòng)作執(zhí)行。

機(jī)器人的應(yīng)用場(chǎng)景正從少量樣機(jī)驗(yàn)證、單一環(huán)境部署,逐步拓展至更復(fù)雜的真實(shí)場(chǎng)景,同時(shí)需要滿足更長(zhǎng)時(shí)間連續(xù)運(yùn)行、更高頻率規(guī);渴鸬囊蟆

因此整套感知鏈路能否形成穩(wěn)定、可復(fù)制、可量產(chǎn)的工業(yè)能力,會(huì)越來(lái)越明顯地影響機(jī)器人進(jìn)入真實(shí)場(chǎng)景的速度。

這一層能力的突破,可能是決定機(jī)器人產(chǎn)業(yè)化進(jìn)程的關(guān)鍵所在。

       原文標(biāo)題 : 具身智能落地,開(kāi)始補(bǔ)“感知”這一課

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)