訂閱
糾錯
加入自媒體

想轉(zhuǎn)行到具身智能,需要具備哪些新技能?

2026-04-08 10:57
智駕最前沿
關注

最近發(fā)現(xiàn)越來越多小伙伴跨行到了具身智能領域,對于習慣了處理車輛縱向驅(qū)動與橫向轉(zhuǎn)向的汽車工程師來說,具身智能并不是一個完全陌生的領域,但也有很大的區(qū)別。

自動駕駛本質(zhì)上是讓輪式平臺安全、平順地穿過結構化交通環(huán)境,而具身智能則要求智能體擁有能夠改變物理世界的身體。這意味著技術關注點從關注交通規(guī)則和障礙物包圍框轉(zhuǎn)向理解復雜的物理力學、精細的接觸反饋以及長程的任務邏輯。

汽車工業(yè)積累的量產(chǎn)經(jīng)驗、線控底盤技術以及高并發(fā)仿真工具,正成為這一領域爆發(fā)的底層支撐。正如特斯拉將原本用于FSD的視覺算法直接遷移到Optimus機器人上,汽車工程師的技術背景在具身智能時代擁有天然的準入優(yōu)勢。

感知系統(tǒng),從看清環(huán)境到理解接觸

自動駕駛感知的核心任務是構建環(huán)境地圖并識別障礙物。工程師通常使用3D邊界框(Bounding Box)來標注車輛或行人的位置,目標是計算出足夠的安全冗余以實現(xiàn)避讓。

具身智能的感知邏輯則發(fā)生了質(zhì)變,它不再只是為了躲避,而是為了交互。這意味著感知系統(tǒng)必須能夠識別物體的6D位姿,即不僅要知道物體在哪里,還要精準掌握它在空間中的旋轉(zhuǎn)角度和幾何細節(jié)。舉個例子,如果智能體感知不到杯子柄的具體斜率或瓶蓋的細微螺紋,后續(xù)的抓取與操作就無從談起。

具身智能還引入了觸覺感知,汽車除了安全氣囊相關的壓力感應外,幾乎不需要感知外部物體的物理接觸。但在具身智能領域,觸覺是閉環(huán)控制中不可或缺的一環(huán)。

Figure 03機器人指尖集成的觸覺傳感器就可以感知低至3克的壓力,這讓它能夠像人一樣捏起細小的紙夾或處理易碎的蛋殼。

這種“近場感知”要求工程師從關注激光雷達的遠距離建模,轉(zhuǎn)向關注RGB-D相機、掌心攝像頭以及觸覺陣列的多模態(tài)融合。

具身智能感知的維度從視覺語義擴展到了硬度、摩擦系數(shù)和質(zhì)心位置等物理屬性。這種轉(zhuǎn)變要求不再將感知看作獨立的輸入模塊,而是將其與動作邏輯深度耦合,實現(xiàn)邊看邊動的實時反饋。

規(guī)劃系統(tǒng),從軌跡搜索到語義任務的對齊

自動駕駛的規(guī)劃器主要在Frenet坐標系下解決路徑的平滑度與安全性問題,通過編寫復雜的狀態(tài)機或搜索算法來處理換道、路口通行等離散場景。

但在具身智能面對的非結構化環(huán)境(如家庭或車間)中,任務往往是長程且連續(xù)的,做的是從凌亂的桌面找出扳手并遞給人類這樣的工作。這種任務無法通過窮舉狀態(tài)機來實現(xiàn),必須轉(zhuǎn)向基于視覺語言動作模型(VLA)的內(nèi)生邏輯。

這意味著規(guī)劃系統(tǒng)走向了端到端語義執(zhí)行方向。Figure AI的Helix系統(tǒng)已經(jīng)實現(xiàn)了超過4分鐘的端到端自主執(zhí)行,期間涵蓋了行走、平衡和雙臂協(xié)作,沒有任何人為預設的硬代碼跳轉(zhuǎn)。

對于汽車工程師而言,進入具身智能領域后,原本用于決策的路權邏輯正在被任務意圖所取代。需要關注的不再是車輛是否壓線,而是要關注智能體如何理解人類指令,并將其拆解為一系列符合物理常識的微動作。

在具身智能中,規(guī)劃不僅是軌跡的生成,更是全身重心的動態(tài)調(diào)配。不同于車輛穩(wěn)定的四輪支撐,人形機器人或多足機器人在移動和操作時,任何肢體擺動都會劇烈改變系統(tǒng)質(zhì)心。

特斯拉在研發(fā)Optimus時,將原本用于FSD的路徑規(guī)劃器改造成了能夠生成全身關節(jié)角度的生成模型,這種跨越業(yè)要求跨領域的小伙伴需要更多地理解物理世界的因果關系,而不僅僅是交通規(guī)則。

控制能力,從車輛穩(wěn)定到全身動力學閉環(huán)

在控制領域,汽車工程師長期處理的是縱向加速和橫向轉(zhuǎn)向的解耦控制。電子穩(wěn)定性控制等技術主要關注的是維持四輪附著力。

當執(zhí)行器數(shù)量從車輛的幾個電機爆發(fā)到機器人的幾十個關節(jié)(如Optimus Gen 3的50個執(zhí)行器)時,控制的復雜性呈現(xiàn)出指數(shù)級增長。這要求工程師掌握全身控制技術,在滿足平衡約束的前提下,實現(xiàn)多關節(jié)的協(xié)同作業(yè)。

具身智能的控制核心在于處理“非連續(xù)接觸”產(chǎn)生的物理沖擊。汽車行駛中輪胎與地面的接觸相對連續(xù),但機器人在行走或抓取瞬間,物理方程會發(fā)生突變。

為了保證系統(tǒng)不崩潰,模型預測控制(MPC)成為了連接高層指令與底層扭矩執(zhí)行的橋梁。通過高頻(通常大于500Hz)的閉環(huán)計算,系統(tǒng)可以預判并補償肢體接觸帶來的力矩波動。

這種精密度要求跨行的小伙伴從傳統(tǒng)的單變量PID控制轉(zhuǎn)向更復雜的動力學建模。例如,在處理靈巧手操作時,需要實時解算雅可比矩陣,以保證手指末端能以毫米級的精度施加毫牛級的力量。這不僅是軟件算法的挑戰(zhàn),更是對線控執(zhí)行器性能的極致壓榨。

想換行,汽車工程師需要補齊哪些板磚?

汽車工程師從自動駕駛轉(zhuǎn)往具身智能,并非從零開始,但很多技術重新學習。

最基礎的知識缺口在于“機器人運動學與動力學”。汽車工程中對車輛模型的簡化(如單軌模型或二自由度模型)在處理多關節(jié)機器人時完全失效。因此需要系統(tǒng)學習空間描述與變換、Denavit-Hartenberg (D-H) 參數(shù)法、以及通過雅可比矩陣建立關節(jié)速度與末端執(zhí)行器速度之間的映射關系。

這是理解機器人如何“動起來”的基礎,也是從宏觀車輛動力學轉(zhuǎn)向精密機構動力學的必經(jīng)之路。

具身智能對AI算法的依賴已經(jīng)從簡單的目標檢測轉(zhuǎn)向了“多模態(tài)大模型”。汽車工程師習慣于處理規(guī)則代碼和小型神經(jīng)網(wǎng)絡,而現(xiàn)在必須掌握Transformer架構、視覺語言模型(VLM)以及擴散模型在動作生成中的應用。

這意味著不僅要會寫C++,還要精通Python環(huán)境下的PyTorch或TensorFlow開發(fā),并能理解如何在大規(guī)模分布式GPU集群上訓練和部署這些參數(shù)量巨大的模型。

對于端到端控制的理解,將成為區(qū)分平庸與卓越工程師的分水嶺。特斯拉Optimus的團隊之所以能快速迭代,很大程度上是因為他們將自動駕駛的視覺感知經(jīng)驗與機器人的動作學習進行了跨界融合,這種“通用算法思維”是工程師必須建立的核心競爭力。

仿真工具鏈的掌握同樣是必修課。汽車工程師熟悉的場景仿真軟件(如Carla、Prescan)側(cè)重于交通流和傳感器物理特性,而機器人仿真則要求極高的物理引擎精度,能夠模擬接觸、摩擦、形變等細節(jié)。

因此需要熟練使用NVIDIA Isaac Sim、MuJoCo或PyBullet等工具。這些工具不僅是驗證算法的場所,更是生成訓練數(shù)據(jù)的工廠。理解如何通過Sim-to-Real技術將仿真中習得的策略安全地遷移到真實硬件,涉及復雜的領域適配和殘差學習,這對于習慣了實車測試的汽車工程師來說,是一個全新的挑戰(zhàn)。

硬件領域也需要從總成集成轉(zhuǎn)向底層自研。具身智能的競爭在很大程度上是硬件能效比的競爭。特斯拉Optimus的Gen 3版本之所以備受期待,原因在于其對執(zhí)行器、電池包以及算力芯片的極致垂直整合。

對此需要理解無框力矩電機、諧波減速器、交叉滾子軸承等精密零部件的工作機理,并能參與到執(zhí)行器驅(qū)動電路和RTOS通訊協(xié)議的底層優(yōu)化中。

-- END --

       原文標題 : 想轉(zhuǎn)行到具身智能,需要具備哪些新技能?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號