123,123

想轉(zhuǎn)行到具身智能，需要具備哪些新技能？

2026-04-08 10:57

最近發(fā)現(xiàn)越來越多小伙伴跨行到了具身智能領域，對于習慣了處理車輛縱向驅(qū)動與橫向轉(zhuǎn)向的汽車工程師來說，具身智能并不是一個完全陌生的領域，但也有很大的區(qū)別。

自動駕駛本質(zhì)上是讓輪式平臺安全、平順地穿過結構化交通環(huán)境，而具身智能則要求智能體擁有能夠改變物理世界的身體。這意味著技術關注點從關注交通規(guī)則和障礙物包圍框轉(zhuǎn)向理解復雜的物理力學、精細的接觸反饋以及長程的任務邏輯。

汽車工業(yè)積累的量產(chǎn)經(jīng)驗、線控底盤技術以及高并發(fā)仿真工具，正成為這一領域爆發(fā)的底層支撐。正如特斯拉將原本用于FSD的視覺算法直接遷移到Optimus機器人上，汽車工程師的技術背景在具身智能時代擁有天然的準入優(yōu)勢。

感知系統(tǒng)，從看清環(huán)境到理解接觸

自動駕駛感知的核心任務是構建環(huán)境地圖并識別障礙物。工程師通常使用3D邊界框（Bounding Box）來標注車輛或行人的位置，目標是計算出足夠的安全冗余以實現(xiàn)避讓。

具身智能的感知邏輯則發(fā)生了質(zhì)變，它不再只是為了躲避，而是為了交互。這意味著感知系統(tǒng)必須能夠識別物體的6D位姿，即不僅要知道物體在哪里，還要精準掌握它在空間中的旋轉(zhuǎn)角度和幾何細節(jié)。舉個例子，如果智能體感知不到杯子柄的具體斜率或瓶蓋的細微螺紋，后續(xù)的抓取與操作就無從談起。

具身智能還引入了觸覺感知，汽車除了安全氣囊相關的壓力感應外，幾乎不需要感知外部物體的物理接觸。但在具身智能領域，觸覺是閉環(huán)控制中不可或缺的一環(huán)。

Figure 03機器人指尖集成的觸覺傳感器就可以感知低至3克的壓力，這讓它能夠像人一樣捏起細小的紙夾或處理易碎的蛋殼。

這種“近場感知”要求工程師從關注激光雷達的遠距離建模，轉(zhuǎn)向關注RGB-D相機、掌心攝像頭以及觸覺陣列的多模態(tài)融合。

具身智能感知的維度從視覺語義擴展到了硬度、摩擦系數(shù)和質(zhì)心位置等物理屬性。這種轉(zhuǎn)變要求不再將感知看作獨立的輸入模塊，而是將其與動作邏輯深度耦合，實現(xiàn)邊看邊動的實時反饋。

規(guī)劃系統(tǒng)，從軌跡搜索到語義任務的對齊

自動駕駛的規(guī)劃器主要在Frenet坐標系下解決路徑的平滑度與安全性問題，通過編寫復雜的狀態(tài)機或搜索算法來處理換道、路口通行等離散場景。

但在具身智能面對的非結構化環(huán)境（如家庭或車間）中，任務往往是長程且連續(xù)的，做的是從凌亂的桌面找出扳手并遞給人類這樣的工作。這種任務無法通過窮舉狀態(tài)機來實現(xiàn)，必須轉(zhuǎn)向基于視覺語言動作模型（VLA）的內(nèi)生邏輯。

這意味著規(guī)劃系統(tǒng)走向了端到端語義執(zhí)行方向。Figure AI的Helix系統(tǒng)已經(jīng)實現(xiàn)了超過4分鐘的端到端自主執(zhí)行，期間涵蓋了行走、平衡和雙臂協(xié)作，沒有任何人為預設的硬代碼跳轉(zhuǎn)。

對于汽車工程師而言，進入具身智能領域后，原本用于決策的路權邏輯正在被任務意圖所取代。需要關注的不再是車輛是否壓線，而是要關注智能體如何理解人類指令，并將其拆解為一系列符合物理常識的微動作。

在具身智能中，規(guī)劃不僅是軌跡的生成，更是全身重心的動態(tài)調(diào)配。不同于車輛穩(wěn)定的四輪支撐，人形機器人或多足機器人在移動和操作時，任何肢體擺動都會劇烈改變系統(tǒng)質(zhì)心。

特斯拉在研發(fā)Optimus時，將原本用于FSD的路徑規(guī)劃器改造成了能夠生成全身關節(jié)角度的生成模型，這種跨越業(yè)要求跨領域的小伙伴需要更多地理解物理世界的因果關系，而不僅僅是交通規(guī)則。

控制能力，從車輛穩(wěn)定到全身動力學閉環(huán)

在控制領域，汽車工程師長期處理的是縱向加速和橫向轉(zhuǎn)向的解耦控制。電子穩(wěn)定性控制等技術主要關注的是維持四輪附著力。

當執(zhí)行器數(shù)量從車輛的幾個電機爆發(fā)到機器人的幾十個關節(jié)（如Optimus Gen 3的50個執(zhí)行器）時，控制的復雜性呈現(xiàn)出指數(shù)級增長。這要求工程師掌握全身控制技術，在滿足平衡約束的前提下，實現(xiàn)多關節(jié)的協(xié)同作業(yè)。

具身智能的控制核心在于處理“非連續(xù)接觸”產(chǎn)生的物理沖擊。汽車行駛中輪胎與地面的接觸相對連續(xù)，但機器人在行走或抓取瞬間，物理方程會發(fā)生突變。

為了保證系統(tǒng)不崩潰，模型預測控制（MPC）成為了連接高層指令與底層扭矩執(zhí)行的橋梁。通過高頻（通常大于500Hz）的閉環(huán)計算，系統(tǒng)可以預判并補償肢體接觸帶來的力矩波動。

這種精密度要求跨行的小伙伴從傳統(tǒng)的單變量PID控制轉(zhuǎn)向更復雜的動力學建模。例如，在處理靈巧手操作時，需要實時解算雅可比矩陣，以保證手指末端能以毫米級的精度施加毫牛級的力量。這不僅是軟件算法的挑戰(zhàn)，更是對線控執(zhí)行器性能的極致壓榨。

想換行，汽車工程師需要補齊哪些板磚？

汽車工程師從自動駕駛轉(zhuǎn)往具身智能，并非從零開始，但很多技術重新學習。

最基礎的知識缺口在于“機器人運動學與動力學”。汽車工程中對車輛模型的簡化（如單軌模型或二自由度模型）在處理多關節(jié)機器人時完全失效。因此需要系統(tǒng)學習空間描述與變換、Denavit-Hartenberg (D-H) 參數(shù)法、以及通過雅可比矩陣建立關節(jié)速度與末端執(zhí)行器速度之間的映射關系。

這是理解機器人如何“動起來”的基礎，也是從宏觀車輛動力學轉(zhuǎn)向精密機構動力學的必經(jīng)之路。

具身智能對AI算法的依賴已經(jīng)從簡單的目標檢測轉(zhuǎn)向了“多模態(tài)大模型”。汽車工程師習慣于處理規(guī)則代碼和小型神經(jīng)網(wǎng)絡，而現(xiàn)在必須掌握Transformer架構、視覺語言模型（VLM）以及擴散模型在動作生成中的應用。

這意味著不僅要會寫C++，還要精通Python環(huán)境下的PyTorch或TensorFlow開發(fā)，并能理解如何在大規(guī)模分布式GPU集群上訓練和部署這些參數(shù)量巨大的模型。

對于端到端控制的理解，將成為區(qū)分平庸與卓越工程師的分水嶺。特斯拉Optimus的團隊之所以能快速迭代，很大程度上是因為他們將自動駕駛的視覺感知經(jīng)驗與機器人的動作學習進行了跨界融合，這種“通用算法思維”是工程師必須建立的核心競爭力。

仿真工具鏈的掌握同樣是必修課。汽車工程師熟悉的場景仿真軟件（如Carla、Prescan）側(cè)重于交通流和傳感器物理特性，而機器人仿真則要求極高的物理引擎精度，能夠模擬接觸、摩擦、形變等細節(jié)。

因此需要熟練使用NVIDIA Isaac Sim、MuJoCo或PyBullet等工具。這些工具不僅是驗證算法的場所，更是生成訓練數(shù)據(jù)的工廠。理解如何通過Sim-to-Real技術將仿真中習得的策略安全地遷移到真實硬件，涉及復雜的領域適配和殘差學習，這對于習慣了實車測試的汽車工程師來說，是一個全新的挑戰(zhàn)。

硬件領域也需要從總成集成轉(zhuǎn)向底層自研。具身智能的競爭在很大程度上是硬件能效比的競爭。特斯拉Optimus的Gen 3版本之所以備受期待，原因在于其對執(zhí)行器、電池包以及算力芯片的極致垂直整合。

對此需要理解無框力矩電機、諧波減速器、交叉滾子軸承等精密零部件的工作機理，并能參與到執(zhí)行器驅(qū)動電路和RTOS通訊協(xié)議的底層優(yōu)化中。

-- END --

原文標題 : 想轉(zhuǎn)行到具身智能，需要具備哪些新技能？