123,123

RL Token：破解 VLA “最后一厘米”精度難題，在線強化學(xué)習(xí)機器人精準操控

2026-04-03 15:29

一臺機器人拿起螺絲刀并不難，難的是讓它在幾秒鐘內(nèi)，精準地把刀頭對準一枚細小的螺絲。

這不是未來世界的科幻場景，而是今天機器人操作中最現(xiàn)實、也最棘手的問題。

當(dāng)前，VLA模型在疊衣服、沖泡咖啡、制作烤奶酪三明治這類多樣化任務(wù)中已經(jīng)表現(xiàn)出令人印象深刻的通用能力。但真正走進工廠、實驗室，甚至家庭，人們很快發(fā)現(xiàn)——通用能力并不等于好用。

原因很簡單：真正實用的物理操作還需要精度、靈巧性和速度。而VLA模型在執(zhí)行“最后一毫米”的高精度操作時，往往會變得猶豫不決、動作遲緩，甚至反復(fù)失敗。這是為什么呢？因為高精度操作天然對微小誤差極度敏感。而這類誤差，僅靠專家示范數(shù)據(jù)很難覆蓋。示范數(shù)據(jù)能教會機器人“怎么做”，卻很難教會它“怎么做得又快又準”。

于是，一個自然的思路浮出水面：讓機器人在實踐中自己學(xué)。這正是強化學(xué)習(xí)的強項。

但問題又來了。

現(xiàn)實中的機器人學(xué)習(xí)，每一輪嘗試都要耗費時間，每一次失敗都伴隨著設(shè)備的磨損。理想情況下，我們希望機器人能在數(shù)小時甚至數(shù)分鐘內(nèi)，完成對某一關(guān)鍵技能的優(yōu)化。然而，直接對整個VLA模型進行強化學(xué)習(xí)微調(diào)，計算成本高、樣本效率低，根本不現(xiàn)實。

而如果用傳統(tǒng)的強化學(xué)習(xí)方法只訓(xùn)練一個小模型，雖然速度快，但VLA那強大的泛化能力就白白犧牲了。

這就陷入了一個兩難：既要VLA的泛化能力，又要在線強化學(xué)習(xí)的速度和樣本效率。

近日，Physical Intelligence（PI）團隊在最新研究論文《RL Token: Bootstrapping Online RL with Vision-Language-Action Models》中，提出了 RL Token（RLT）方法。該方法通過構(gòu)建 VLA 與輕量級強化學(xué)習(xí)之間的緊湊接口，僅需數(shù)小時真實交互數(shù)據(jù)，即可讓機器人完成精密操作的在線優(yōu)化，有效解決了通用模型難以兼顧泛化性與精確性的行業(yè)痛點，為機器人靈巧操作提供了全新技術(shù)路徑。

一、RL Token 實現(xiàn)方案

RL Token（RLT）的核心設(shè)計理念，是凍結(jié)VLA模型主體，通過緊湊表征接口，用輕量級網(wǎng)絡(luò)完成在線強化學(xué)習(xí)微調(diào)，實現(xiàn)泛化能力與精密優(yōu)化的兼顧。整套方案無需定制化開發(fā)，可直接對接預(yù)訓(xùn)練 VLA模型，快速適配各類精密操作任務(wù)。

RL Token工作機制（PI論文，見參考資料）

1. RL Token 的生成機制

RL Token是VLA 與輕量級強化學(xué)習(xí)網(wǎng)絡(luò)之間的緊湊信息接口，通過添加一個編解碼Transformer對 VLA 模型進行適配來實現(xiàn)：

編碼器負責(zé)將VLA 的高維內(nèi)部表征壓縮為低維向量，即 RL Token，濃縮任務(wù)核心信息（包括視覺感知、語義理解與動作先驗等）；

解碼器通過重構(gòu)VLA原始嵌入，確保RL Token保留完整的任務(wù)關(guān)鍵信息，形成信息瓶頸，避免有效特征丟失。

訓(xùn)練完成后，凍結(jié)VLA 參數(shù)，RL Token 作為輕量級Actor-Critic 網(wǎng)絡(luò)的狀態(tài)輸入，讓小型網(wǎng)絡(luò)也能利用VLA的豐富感知知識，實現(xiàn)高效強化學(xué)習(xí)。

2. 輕量級強化學(xué)習(xí)設(shè)計基于 RL Token，方案采用樣本高效的 off-policy Actor-Critic 在線強化學(xué)習(xí)算法，僅訓(xùn)練輕量級策略頭（Actor）與價值頭（Critic），可直接在機器人端本地運行，每秒完成數(shù)百次參數(shù)更新，實現(xiàn)實時策略優(yōu)化。

為保證訓(xùn)練穩(wěn)定性與效率，方案在三大關(guān)鍵設(shè)計上進行了如下優(yōu)化調(diào)整：

1）動作空間對齊

強化學(xué)習(xí)策略直接預(yù)測動作塊（Action Chunks），與底層 VLA 的動作結(jié)構(gòu)保持完全一致，而非在單步控制層面逐幀執(zhí)行。通過優(yōu)化連續(xù)動作序列，使在線策略能夠有效調(diào)整任務(wù)中關(guān)鍵的時間擴展性運動模式，滿足精密操作對時序一致性的需求。

2）正則化約束錨定行為

策略網(wǎng)絡(luò)（Actor）將 VLA 預(yù)測的動作作為輸入，學(xué)習(xí)對參考動作進行修正而非替代。在策略更新中引入朝向參考動作的正則化約束，約束 Actor網(wǎng)絡(luò)貼近 VLA 的參考動作：

當(dāng)VLA 行為已較為合理時，動作與VLA一致，訓(xùn)練穩(wěn)定；

當(dāng)動作偏離VLA 時，約束作用增強，引導(dǎo)網(wǎng)絡(luò)貼近合理動作；

僅當(dāng)Critic 判定偏離能獲得更高獎勵時，才允許有限探索，避免無效試錯。

同時，為防止策略在訓(xùn)練初期單純復(fù)制VLA 動作，引入?yún)⒖紕幼麟S機丟棄機制（reference-action dropout），強制策略網(wǎng)絡(luò)維持一條獨立的動作生成路徑，充分利用先驗知識的同時保留自身優(yōu)化能力。

3）可選的人工干預(yù)融合

方案可選擇性地將人工干預(yù)信號直接融入強化學(xué)習(xí)更新過程：當(dāng)機器人出現(xiàn)停滯或執(zhí)行錯誤時，人工修正信號可被回傳至訓(xùn)練流程，進一步提升策略的魯棒性與任務(wù)適應(yīng)性。

上述設(shè)計使在線強化學(xué)習(xí)成為一套可直接附加于預(yù)訓(xùn)練 VLA 的通用方案，無需針對具體任務(wù)進行工程化改造，即可實現(xiàn)穩(wěn)定、高效的實時策略優(yōu)化。

3. 端到端落地流程

整套流程將在線強化學(xué)習(xí)轉(zhuǎn)化為VLA行為的局部精調(diào)，而非無約束探索，完美平衡了效率、穩(wěn)定性與性能。

RL Token 的實際應(yīng)用分為兩步，流程簡潔高效：

VLA 適配階段：在少量任務(wù)專屬演示數(shù)據(jù)上對VLA 進行微調(diào)。這樣做有兩個目的：一是提高 VLA 在目標任務(wù)上的初始執(zhí)行能力；二是讓它能夠輸出一個專門用于強化學(xué)習(xí)的特征（RL Token），供后續(xù)訓(xùn)練使用。

在線RL 優(yōu)化階段：凍結(jié)VLA 參數(shù)，并在線訓(xùn)練輕量級的Actor與Critic 網(wǎng)絡(luò)。網(wǎng)絡(luò)以 RL Token 表征和 VLA 參考動作作為條件輸入，并對學(xué)習(xí)到的策略施加正則化約束，使其與 VLA 模型保持相近。

這套方法不是讓機器人在黑暗中盲目摸索（無約束搜索），而是讓它在已經(jīng)具備一定操作能力的預(yù)訓(xùn)練模型基礎(chǔ)上，僅進行局部微調(diào)。它只訓(xùn)練兩個輕量級的小網(wǎng)絡(luò)，因此運行速度快，同時充分利用了預(yù)訓(xùn)練模型已有的理解能力和操作經(jīng)驗，做到了“站在巨人肩膀上”進行高效學(xué)習(xí)。

RL Token的提�。≒I論文，見參考資料）

二、實驗驗證

為全面驗證RLT（RL Token 架構(gòu)）在高精密操作任務(wù)中的有效性，研究人員在四項兼具精度與速度要求的亞毫米級任務(wù)上開展了系統(tǒng)實驗，包括螺絲安裝（用電動螺絲刀將 M3 螺絲擰入螺紋孔）、扎帶緊固、以太網(wǎng)接頭插接和充電器插入。實驗結(jié)果表明，該方案在任務(wù)成功率與執(zhí)行速度上實現(xiàn)了雙重突破，并展現(xiàn)出卓越的樣本效率與泛化能力。

1. 實驗設(shè)置

每項任務(wù)均包含抓取、重定位與對準環(huán)節(jié)，總時長為 30-120 秒（控制頻率 50Hz，對應(yīng)約 1500-6000 個控制步）。針對每項任務(wù)，研究人員劃定了關(guān)鍵階段——即插入、緊固或旋轉(zhuǎn)環(huán)節(jié)，該階段精度要求最高，也是基礎(chǔ) VLA 模型最常出現(xiàn)卡頓或執(zhí)行失敗的環(huán)節(jié)。關(guān)鍵階段的時長通常為 5-20 秒（對應(yīng) 250-1000 個控制步）。

強化學(xué)習(xí)策略的輸入包括：RL Token（由兩路腕部相機圖像與一路基座相機圖像生成），以及額外的本體感受狀態(tài)。根據(jù)任務(wù)不同，輔助狀態(tài)信息有所差異：螺絲安裝任務(wù)中輔助狀態(tài)為關(guān)節(jié)位置；扎帶緊固、以太網(wǎng)接頭插接、充電器插接任務(wù)中，輔助狀態(tài)為末端執(zhí)行器位姿。

實驗采用π0.6 作為基礎(chǔ)VLA模型，機器人的控制頻率為50Hz。單時間步動作空間維度為14 維，對應(yīng)強化學(xué)習(xí)Actor網(wǎng)絡(luò)的分塊動作維度為140維。

2. 實驗結(jié)果

1）在線強化學(xué)習(xí)相較基礎(chǔ)VLA策略存在性能提升

在兩種設(shè)置下評估本方法：隔離關(guān)鍵階段的受控設(shè)置，以及要求強化學(xué)習(xí)策略具備更強魯棒性的全任務(wù)設(shè)置。在線強化學(xué)習(xí)在兩種設(shè)置下均能提升基礎(chǔ)模型的成功率與執(zhí)行速度。

在受控設(shè)置中，RLT 對四項任務(wù)的關(guān)鍵階段均實現(xiàn)穩(wěn)定提升。即便在基礎(chǔ)策略已具備良好可靠性的相對簡單任務(wù)（充電器插接、以太網(wǎng)接頭插接）中，RLT 學(xué)到的策略在關(guān)鍵階段的執(zhí)行速度提升約3倍。在難度更高的扎帶緊固與螺絲安裝任務(wù)中，成功率的提升更為顯著。

在全任務(wù)評估中，由于任務(wù)前期環(huán)節(jié)（抓取、抬升物體等）帶來誤差累積，整體成功率有所下降，但RLT 仍使螺絲安裝任務(wù)成功率提升40%，扎帶緊固任務(wù)成功率提升60%。

全任務(wù)與關(guān)鍵階段受控設(shè)置任務(wù)評估（PI論文，見參考資料）

備注：1）ScrewDriver：螺絲安裝 2）Zip Tie：扎帶緊固 3）Ethernet：以太網(wǎng)接頭插接 4）Charger：充電器插入

2）相較于基線方法，RLT 帶來吞吐率的顯著提升

在以太網(wǎng)接頭插接任務(wù)中，將RLT 與四種基線方法進行對比：

HIL-SERL 與 PLD：均為單步在線強化學(xué)習(xí)方法，在這一跨數(shù)百步、采用稀疏獎勵的任務(wù)上無法有效學(xué)習(xí)。若無動作分塊，任務(wù)時程極長，價值函數(shù)更新難以有效傳導(dǎo)稀疏獎勵信號。

DAgger 與 DSRL：可達到與 RLT 相近的成功率，但在速度提升上效果遠弱于 RLT。DAgger 屬于模仿學(xué)習(xí)方法，執(zhí)行速度受限于人類演示與干預(yù)的速度；DSRL 是一種將策略嚴格約束在基礎(chǔ)VLA 附近的強化學(xué)習(xí)方法，雖能保證訓(xùn)練穩(wěn)定，但性能提升潛力相對有限。

RLT與其他強化學(xué)習(xí)算法的對比（PI論文，見參考資料）

備注：將RLT 與近期強化學(xué)習(xí)相關(guān)文獻中的多種基線方法進行對比。僅采用單步動作而非動作塊的方法（HIL-SERL、PLD）表現(xiàn)較差。DSRL 雖能實現(xiàn)較高的成功率，但在任務(wù)吞吐率上顯著落后于 RLT。

3）RL Token、動作塊、BC 正則項、參考動作直通四項組件缺一不可

實驗通過消融測試驗證RL Token、動作塊、BC 正則項、參考動作直通四項設(shè)計的核心價值，任一組件缺失均會導(dǎo)致性能明顯下降：

用ResNet-10 編碼器替代 RL Token 會使吞吐率下降50%，證明本文提出的Token編碼了與操作任務(wù)相關(guān)的結(jié)構(gòu)信息，這是在標準計算機視覺任務(wù)上訓(xùn)練的通用編碼器無法提供的。

將動作塊（C=10）替換為單步動作，會大幅拉長任務(wù)的有效時程，因為價值函數(shù)需要在更長的序列上完成信用分配，同時也會導(dǎo)致基于RL Token的方法無法可行運行。在實際實驗中，單步變體的性能無法穩(wěn)定達到基礎(chǔ)策略水平。

移除BC正則項（β=0）帶來單次最大的性能下跌，因為這會迫使Actor網(wǎng)絡(luò)僅依靠Q函數(shù)的梯度，在完整動作空間中進行探索。

移除參考動作直通會減慢學(xué)習(xí)速度，導(dǎo)致早期探索偏移，偶爾出現(xiàn)退化行為。盡管在該簡單任務(wù)上，該消融組最終能達到RLT 的性能，但在訓(xùn)練過程中失敗次數(shù)更多。

以太網(wǎng)接頭插接任務(wù)訓(xùn)練過程中不同階段的吞吐量（PI論文，見參考資料）

備注：1）w/o BC Regularizer：無BC正則項 2）w/o Chunk：無動作分塊 3）w/o RL Token : 無 RL Token 4）w/o Pass-Through：無參考動作直通

消融研究表明：本方法的各個組成部分均對實現(xiàn)優(yōu)異性能至關(guān)重要，且完整系統(tǒng)的學(xué)習(xí)速度最快，最終性能表現(xiàn)最佳。值得注意的是，僅在任務(wù)關(guān)鍵部分消耗5分鐘數(shù)據(jù)后，RLT的性能就超越了替代策略（整個實驗時長約 40 分鐘）。將參考動作從Actor網(wǎng)絡(luò)輸入中移除（“無直通機制” 配置）雖仍能達到最優(yōu)的最終性能，但代價是學(xué)習(xí)速度變慢，且在整個訓(xùn)練過程中出現(xiàn)的失敗次數(shù)顯著增多。

以太網(wǎng)插接任務(wù)訓(xùn)練過程中的成功率評估（PI論文，見參考資料）

在以太網(wǎng)接頭插接任務(wù)中，RLT 能夠快速達到與VLA策略相當(dāng)?shù)某晒β�，同時提升任務(wù)吞吐率。若不采用參考動作直通機制，或不使用 RL Token，均會導(dǎo)致模型學(xué)習(xí)速度變慢。

4）RLT產(chǎn)生超越人類演示的高效行為

實驗結(jié)果顯示：在線強化學(xué)習(xí)使機器人的任務(wù)執(zhí)行方式發(fā)生了根本性變化。

針對以太網(wǎng)插接任務(wù)的關(guān)鍵階段，研究人員可視化呈現(xiàn)了人類遙操作演示、基礎(chǔ)VLA模型與RLT策略的速度分布（如上圖所示）：

基礎(chǔ)VLA模型在接近接觸目標時，常表現(xiàn)出 “試探” 行為：靠近目標、小幅回撤、重新調(diào)整，而后再次嘗試 —— 有時需多次循環(huán)此類嘗試才能成功。

RLT策略會直接靠近接口，并以流暢的動作完成接頭插接。即便首次嘗試失敗，RLT也會施加一定壓力并輕微擺動接頭，利用機械柔順性完成更快插接。該行為并未出現(xiàn)在演示數(shù)據(jù)中，完全源于在線探索，這表明該方法能夠超越對人類策略的簡單模仿。

三、未來展望

具身智能模型的能力迭代通常遵循一條漸進的技術(shù)路徑：首先通過大規(guī)模預(yù)訓(xùn)練，構(gòu)建通用的感知與基礎(chǔ)動作能力，為后續(xù)優(yōu)化提供穩(wěn)固的模型基座；隨后在真實場景部署中，利用任務(wù)特定的交互數(shù)據(jù)對模型進行局部微調(diào)，提升關(guān)鍵動作的精度與穩(wěn)定性；在此基礎(chǔ)上，結(jié)合人類反饋與強化學(xué)習(xí)，進一步增強模型在復(fù)雜任務(wù)中的高層推理與決策能力。

RL Token 正是這一路徑中第二階段的核心實現(xiàn)方法之一 —— 它作為連接 VLA 大模型與在線強化學(xué)習(xí)的橋梁，將在線 RL 轉(zhuǎn)化為對 VLA 高潛力行為的局部精調(diào)，而非無約束探索，從而實現(xiàn)快速高效的學(xué)習(xí)。在當(dāng)前方案中，還可以選擇性引入人工干預(yù)，當(dāng)機器人執(zhí)行受阻或出現(xiàn)操作偏差時，通過人工修正信號輔助策略更新，進一步保障訓(xùn)練穩(wěn)定性。

未來，結(jié)合獎勵模型、進度預(yù)測等技術(shù)，有望實現(xiàn)完全自主的強化學(xué)習(xí)優(yōu)化流程—— 這恰與路徑的第三階段（基于人類反饋的強化學(xué)習(xí)（RLHF））相呼應(yīng)，使機器人無需人工介入即可持續(xù)自我進化。當(dāng)模型能夠通過真實場景的持續(xù)交互，打通 “預(yù)訓(xùn)練 — 場景微調(diào) — 人類反饋優(yōu)化” 這一閉環(huán)時，其在實際任務(wù)中的表現(xiàn)將實現(xiàn)持續(xù)迭代與穩(wěn)定提升。

RL Token 不僅是一項重要技術(shù)方法創(chuàng)新，更是推動機器人從 “被動執(zhí)行指令” 向在線自主優(yōu)化、持續(xù)自適應(yīng)演進的關(guān)鍵技術(shù)支撐。通過讓通用機器人大模型具備高效在線自優(yōu)化能力，該方案顯著提升了機器人在精細操作場景下的精度、效率與泛化適應(yīng)性，為智能制造、精密裝配等領(lǐng)域的自動化升級提供了可行路徑。

原文標題 : RL Token：破解 VLA “最后一厘米”精度難題，在線強化學(xué)習(xí)實現(xiàn)機器人精準操控