訂閱
糾錯
加入自媒體

RL Token:破解 VLA “最后一厘米”精度難題,在線強化學(xué)習(xí)機器人精準操控

一臺機器人拿起螺絲刀并不難,難的是讓它在幾秒鐘內(nèi),精準地把刀頭對準一枚細小的螺絲。

這不是未來世界的科幻場景,而是今天機器人操作中最現(xiàn)實、也最棘手的問題。

當(dāng)前,VLA模型在疊衣服、沖泡咖啡、制作烤奶酪三明治這類多樣化任務(wù)中已經(jīng)表現(xiàn)出令人印象深刻的通用能力。但真正走進工廠、實驗室,甚至家庭,人們很快發(fā)現(xiàn)——通用能力并不等于好用。

原因很簡單:真正實用的物理操作還需要精度、靈巧性和速度。而VLA模型在執(zhí)行“最后一毫米”的高精度操作時,往往會變得猶豫不決、動作遲緩,甚至反復(fù)失敗。這是為什么呢?因為高精度操作天然對微小誤差極度敏感。而這類誤差,僅靠專家示范數(shù)據(jù)很難覆蓋。示范數(shù)據(jù)能教會機器人“怎么做”,卻很難教會它“怎么做得又快又準”。

于是,一個自然的思路浮出水面:讓機器人在實踐中自己學(xué)。這正是強化學(xué)習(xí)的強項。

但問題又來了。

現(xiàn)實中的機器人學(xué)習(xí),每一輪嘗試都要耗費時間,每一次失敗都伴隨著設(shè)備的磨損。理想情況下,我們希望機器人能在數(shù)小時甚至數(shù)分鐘內(nèi),完成對某一關(guān)鍵技能的優(yōu)化。然而,直接對整個VLA模型進行強化學(xué)習(xí)微調(diào),計算成本高、樣本效率低,根本不現(xiàn)實。

而如果用傳統(tǒng)的強化學(xué)習(xí)方法只訓(xùn)練一個小模型,雖然速度快,但VLA那強大的泛化能力就白白犧牲了。

這就陷入了一個兩難:既要VLA的泛化能力,又要在線強化學(xué)習(xí)的速度和樣本效率。

近日,Physical Intelligence(PI)團隊在最新研究論文《RL Token: Bootstrapping Online RL with Vision-Language-Action Models》中,提出了 RL Token(RLT)方法。該方法通過構(gòu)建 VLA 與輕量級強化學(xué)習(xí)之間的緊湊接口,僅需數(shù)小時真實交互數(shù)據(jù),即可讓機器人完成精密操作的在線優(yōu)化,有效解決了通用模型難以兼顧泛化性與精確性的行業(yè)痛點,為機器人靈巧操作提供了全新技術(shù)路徑。

一、RL Token 實現(xiàn)方案

RL Token(RLT)的核心設(shè)計理念,是凍結(jié)VLA模型主體,通過緊湊表征接口,用輕量級網(wǎng)絡(luò)完成在線強化學(xué)習(xí)微調(diào),實現(xiàn)泛化能力與精密優(yōu)化的兼顧。整套方案無需定制化開發(fā),可直接對接預(yù)訓(xùn)練 VLA模型,快速適配各類精密操作任務(wù)。

RL Token工作機制(PI論文,見參考資料)

1. RL Token 的生成機制

RL Token是VLA 與輕量級強化學(xué)習(xí)網(wǎng)絡(luò)之間的緊湊信息接口,通過添加一個編解碼Transformer對 VLA 模型進行適配來實現(xiàn):

編碼器負責(zé)將VLA 的高維內(nèi)部表征壓縮為低維向量,即 RL Token,濃縮任務(wù)核心信息(包括視覺感知、語義理解與動作先驗等);

解碼器通過重構(gòu)VLA原始嵌入,確保RL Token保留完整的任務(wù)關(guān)鍵信息,形成信息瓶頸,避免有效特征丟失。

訓(xùn)練完成后,凍結(jié)VLA 參數(shù),RL Token 作為輕量級Actor-Critic 網(wǎng)絡(luò)的狀態(tài)輸入,讓小型網(wǎng)絡(luò)也能利用VLA的豐富感知知識,實現(xiàn)高效強化學(xué)習(xí)。

2. 輕量級強化學(xué)習(xí)設(shè)計基于 RL Token,方案采用樣本高效的 off-policy Actor-Critic 在線強化學(xué)習(xí)算法,僅訓(xùn)練輕量級策略頭(Actor)與價值頭(Critic),可直接在機器人端本地運行,每秒完成數(shù)百次參數(shù)更新,實現(xiàn)實時策略優(yōu)化。

為保證訓(xùn)練穩(wěn)定性與效率,方案在三大關(guān)鍵設(shè)計上進行了如下優(yōu)化調(diào)整:

1)動作空間對齊

強化學(xué)習(xí)策略直接預(yù)測動作塊(Action Chunks),與底層 VLA 的動作結(jié)構(gòu)保持完全一致,而非在單步控制層面逐幀執(zhí)行。通過優(yōu)化連續(xù)動作序列,使在線策略能夠有效調(diào)整任務(wù)中關(guān)鍵的時間擴展性運動模式,滿足精密操作對時序一致性的需求。

2)正則化約束錨定行為

策略網(wǎng)絡(luò)(Actor)將 VLA 預(yù)測的動作作為輸入,學(xué)習(xí)對參考動作進行修正而非替代。在策略更新中引入朝向參考動作的正則化約束,約束 Actor網(wǎng)絡(luò)貼近 VLA 的參考動作:

當(dāng)VLA 行為已較為合理時,動作與VLA一致,訓(xùn)練穩(wěn)定;

當(dāng)動作偏離VLA 時,約束作用增強,引導(dǎo)網(wǎng)絡(luò)貼近合理動作;

僅當(dāng)Critic 判定偏離能獲得更高獎勵時,才允許有限探索,避免無效試錯。

同時,為防止策略在訓(xùn)練初期單純復(fù)制VLA 動作,引入?yún)⒖紕幼麟S機丟棄機制(reference-action dropout),強制策略網(wǎng)絡(luò)維持一條獨立的動作生成路徑,充分利用先驗知識的同時保留自身優(yōu)化能力。

3)可選的人工干預(yù)融合

方案可選擇性地將人工干預(yù)信號直接融入強化學(xué)習(xí)更新過程:當(dāng)機器人出現(xiàn)停滯或執(zhí)行錯誤時,人工修正信號可被回傳至訓(xùn)練流程,進一步提升策略的魯棒性與任務(wù)適應(yīng)性。

上述設(shè)計使在線強化學(xué)習(xí)成為一套可直接附加于預(yù)訓(xùn)練 VLA 的通用方案,無需針對具體任務(wù)進行工程化改造,即可實現(xiàn)穩(wěn)定、高效的實時策略優(yōu)化。

3. 端到端落地流程

整套流程將在線強化學(xué)習(xí)轉(zhuǎn)化為VLA行為的局部精調(diào),而非無約束探索,完美平衡了效率、穩(wěn)定性與性能。

RL Token 的實際應(yīng)用分為兩步,流程簡潔高效:

VLA 適配階段:在少量任務(wù)專屬演示數(shù)據(jù)上對VLA 進行微調(diào)。這樣做有兩個目的:一是提高 VLA 在目標任務(wù)上的初始執(zhí)行能力;二是讓它能夠輸出一個專門用于強化學(xué)習(xí)的特征(RL Token),供后續(xù)訓(xùn)練使用。

在線RL 優(yōu)化階段:凍結(jié)VLA 參數(shù),并在線訓(xùn)練輕量級的Actor與Critic 網(wǎng)絡(luò)。網(wǎng)絡(luò)以 RL Token 表征和 VLA 參考動作作為條件輸入,并對學(xué)習(xí)到的策略施加正則化約束,使其與 VLA 模型保持相近。

這套方法不是讓機器人在黑暗中盲目摸索(無約束搜索),而是讓它在已經(jīng)具備一定操作能力的預(yù)訓(xùn)練模型基礎(chǔ)上,僅進行局部微調(diào)。它只訓(xùn)練兩個輕量級的小網(wǎng)絡(luò),因此運行速度快,同時充分利用了預(yù)訓(xùn)練模型已有的理解能力和操作經(jīng)驗,做到了“站在巨人肩膀上”進行高效學(xué)習(xí)。

RL Token的提。≒I論文,見參考資料)

二、實驗驗證

為全面驗證RLT(RL Token 架構(gòu))在高精密操作任務(wù)中的有效性,研究人員在四項兼具精度與速度要求的亞毫米級任務(wù)上開展了系統(tǒng)實驗,包括螺絲安裝 (用電動螺絲刀將 M3 螺絲擰入螺紋孔)、扎帶緊固、以太網(wǎng)接頭插接和充電器插入。實驗結(jié)果表明,該方案在任務(wù)成功率與執(zhí)行速度上實現(xiàn)了雙重突破,并展現(xiàn)出卓越的樣本效率與泛化能力。

1. 實驗設(shè)置

每項任務(wù)均包含抓取、重定位與對準環(huán)節(jié),總時長為 30-120 秒(控制頻率 50Hz,對應(yīng)約 1500-6000 個控制步)。針對每項任務(wù),研究人員劃定了關(guān)鍵階段——即插入、緊固或旋轉(zhuǎn)環(huán)節(jié),該階段精度要求最高,也是基礎(chǔ) VLA 模型最常出現(xiàn)卡頓或執(zhí)行失敗的環(huán)節(jié)。關(guān)鍵階段的時長通常為 5-20 秒(對應(yīng) 250-1000 個控制步)。

強化學(xué)習(xí)策略的輸入包括:RL Token(由兩路腕部相機圖像與一路基座相機圖像生成),以及額外的本體感受狀態(tài)。根據(jù)任務(wù)不同,輔助狀態(tài)信息有所差異:螺絲安裝任務(wù)中輔助狀態(tài)為關(guān)節(jié)位置;扎帶緊固、以太網(wǎng)接頭插接、充電器插接任務(wù)中,輔助狀態(tài)為末端執(zhí)行器位姿。

實驗采用π0.6 作為基礎(chǔ)VLA模型,機器人的控制頻率為50Hz。單時間步動作空間維度為14 維,對應(yīng)強化學(xué)習(xí)Actor網(wǎng)絡(luò)的分塊動作維度為140維。

2. 實驗結(jié)果

1)在線強化學(xué)習(xí)相較基礎(chǔ)VLA策略存在性能提升

在兩種設(shè)置下評估本方法:隔離關(guān)鍵階段的受控設(shè)置,以及要求強化學(xué)習(xí)策略具備更強魯棒性的全任務(wù)設(shè)置。在線強化學(xué)習(xí)在兩種設(shè)置下均能提升基礎(chǔ)模型的成功率與執(zhí)行速度。

在受控設(shè)置中,RLT 對四項任務(wù)的關(guān)鍵階段均實現(xiàn)穩(wěn)定提升。即便在基礎(chǔ)策略已具備良好可靠性的相對簡單任務(wù)(充電器插接、以太網(wǎng)接頭插接)中,RLT 學(xué)到的策略在關(guān)鍵階段的執(zhí)行速度提升約3倍。在難度更高的扎帶緊固與螺絲安裝任務(wù)中,成功率的提升更為顯著。

在全任務(wù)評估中,由于任務(wù)前期環(huán)節(jié)(抓取、抬升物體等)帶來誤差累積,整體成功率有所下降,但RLT 仍使螺絲安裝任務(wù)成功率提升40%,扎帶緊固任務(wù)成功率提升60%。

全任務(wù)與關(guān)鍵階段受控設(shè)置任務(wù)評估(PI論文,見參考資料)

備注:1)ScrewDriver:螺絲安裝 2)Zip Tie:扎帶緊固   3)Ethernet:以太網(wǎng)接頭插接  4)Charger:充電器插入

2)相較于基線方法,RLT 帶來吞吐率的顯著提升

在以太網(wǎng)接頭插接任務(wù)中,將RLT 與四種基線方法進行對比:

HIL-SERL 與 PLD:均為單步在線強化學(xué)習(xí)方法,在這一跨數(shù)百步、采用稀疏獎勵的任務(wù)上無法有效學(xué)習(xí)。若無動作分塊,任務(wù)時程極長,價值函數(shù)更新難以有效傳導(dǎo)稀疏獎勵信號。

DAgger 與 DSRL:可達到與 RLT 相近的成功率,但在速度提升上效果遠弱于 RLT。DAgger 屬于模仿學(xué)習(xí)方法,執(zhí)行速度受限于人類演示與干預(yù)的速度;DSRL 是一種將策略嚴格約束在基礎(chǔ)VLA 附近的強化學(xué)習(xí)方法,雖能保證訓(xùn)練穩(wěn)定,但性能提升潛力相對有限。

RLT與其他強化學(xué)習(xí)算法的對比(PI論文,見參考資料)

備注:將RLT 與近期強化學(xué)習(xí)相關(guān)文獻中的多種基線方法進行對比。僅采用單步動作而非動作塊的方法(HIL-SERL、PLD)表現(xiàn)較差。DSRL 雖能實現(xiàn)較高的成功率,但在任務(wù)吞吐率上顯著落后于 RLT。

3)RL Token、動作塊、BC 正則項、參考動作直通四項組件缺一不可

實驗通過消融測試驗證RL Token、動作塊、BC 正則項、參考動作直通四項設(shè)計的核心價值,任一組件缺失均會導(dǎo)致性能明顯下降:

用ResNet-10 編碼器替代 RL Token 會使吞吐率下降50%,證明本文提出的Token編碼了與操作任務(wù)相關(guān)的結(jié)構(gòu)信息,這是在標準計算機視覺任務(wù)上訓(xùn)練的通用編碼器無法提供的。

將動作塊(C=10)替換為單步動作,會大幅拉長任務(wù)的有效時程,因為價值函數(shù)需要在更長的序列上完成信用分配,同時也會導(dǎo)致基于RL Token的方法無法可行運行。在實際實驗中,單步變體的性能無法穩(wěn)定達到基礎(chǔ)策略水平。

移除BC正則項(β=0)帶來單次最大的性能下跌,因為這會迫使Actor網(wǎng)絡(luò)僅依靠Q函數(shù)的梯度,在完整動作空間中進行探索。

移除參考動作直通會減慢學(xué)習(xí)速度,導(dǎo)致早期探索偏移,偶爾出現(xiàn)退化行為。盡管在該簡單任務(wù)上,該消融組最終能達到RLT 的性能,但在訓(xùn)練過程中失敗次數(shù)更多。

以太網(wǎng)接頭插接任務(wù)訓(xùn)練過程中不同階段的吞吐量(PI論文,見參考資料)

備注:1)w/o BC Regularizer:無BC正則項   2)w/o Chunk:無動作分塊   3)w/o RL Token : 無 RL Token    4)w/o Pass-Through:無參考動作直通 

消融研究表明:本方法的各個組成部分均對實現(xiàn)優(yōu)異性能至關(guān)重要,且完整系統(tǒng)的學(xué)習(xí)速度最快,最終性能表現(xiàn)最佳。值得注意的是,僅在任務(wù)關(guān)鍵部分消耗5分鐘數(shù)據(jù)后,RLT的性能就超越了替代策略(整個實驗時長約 40 分鐘)。將參考動作從Actor網(wǎng)絡(luò)輸入中移除(“無直通機制” 配置)雖仍能達到最優(yōu)的最終性能,但代價是學(xué)習(xí)速度變慢,且在整個訓(xùn)練過程中出現(xiàn)的失敗次數(shù)顯著增多。

以太網(wǎng)插接任務(wù)訓(xùn)練過程中的成功率評估(PI論文,見參考資料)

在以太網(wǎng)接頭插接任務(wù)中,RLT 能夠快速達到與VLA策略相當(dāng)?shù)某晒β,同時提升任務(wù)吞吐率。若不采用參考動作直通機制,或不使用 RL Token,均會導(dǎo)致模型學(xué)習(xí)速度變慢。

4)RLT產(chǎn)生超越人類演示的高效行為

實驗結(jié)果顯示:在線強化學(xué)習(xí)使機器人的任務(wù)執(zhí)行方式發(fā)生了根本性變化。

針對以太網(wǎng)插接任務(wù)的關(guān)鍵階段,研究人員可視化呈現(xiàn)了人類遙操作演示、基礎(chǔ)VLA模型與RLT策略的速度分布(如上圖所示):

基礎(chǔ)VLA模型在接近接觸目標時,常表現(xiàn)出 “試探” 行為:靠近目標、小幅回撤、重新調(diào)整,而后再次嘗試 —— 有時需多次循環(huán)此類嘗試才能成功。

RLT策略會直接靠近接口,并以流暢的動作完成接頭插接。即便首次嘗試失敗,RLT也會施加一定壓力并輕微擺動接頭,利用機械柔順性完成更快插接。該行為并未出現(xiàn)在演示數(shù)據(jù)中,完全源于在線探索,這表明該方法能夠超越對人類策略的簡單模仿。

三、未來展望

具身智能模型的能力迭代通常遵循一條漸進的技術(shù)路徑:首先通過大規(guī)模預(yù)訓(xùn)練,構(gòu)建通用的感知與基礎(chǔ)動作能力,為后續(xù)優(yōu)化提供穩(wěn)固的模型基座;隨后在真實場景部署中,利用任務(wù)特定的交互數(shù)據(jù)對模型進行局部微調(diào),提升關(guān)鍵動作的精度與穩(wěn)定性;在此基礎(chǔ)上,結(jié)合人類反饋與強化學(xué)習(xí),進一步增強模型在復(fù)雜任務(wù)中的高層推理與決策能力。

RL Token 正是這一路徑中第二階段的核心實現(xiàn)方法之一 —— 它作為連接 VLA 大模型與在線強化學(xué)習(xí)的橋梁,將在線 RL 轉(zhuǎn)化為對 VLA 高潛力行為的局部精調(diào),而非無約束探索,從而實現(xiàn)快速高效的學(xué)習(xí)。在當(dāng)前方案中,還可以選擇性引入人工干預(yù),當(dāng)機器人執(zhí)行受阻或出現(xiàn)操作偏差時,通過人工修正信號輔助策略更新,進一步保障訓(xùn)練穩(wěn)定性。

未來,結(jié)合獎勵模型、進度預(yù)測等技術(shù),有望實現(xiàn)完全自主的強化學(xué)習(xí)優(yōu)化流程—— 這恰與路徑的第三階段(基于人類反饋的強化學(xué)習(xí)(RLHF))相呼應(yīng),使機器人無需人工介入即可持續(xù)自我進化。當(dāng)模型能夠通過真實場景的持續(xù)交互,打通 “預(yù)訓(xùn)練 — 場景微調(diào) — 人類反饋優(yōu)化” 這一閉環(huán)時,其在實際任務(wù)中的表現(xiàn)將實現(xiàn)持續(xù)迭代與穩(wěn)定提升。

RL Token 不僅是一項重要技術(shù)方法創(chuàng)新,更是推動機器人從 “被動執(zhí)行指令” 向在線自主優(yōu)化、持續(xù)自適應(yīng)演進的關(guān)鍵技術(shù)支撐。通過讓通用機器人大模型具備高效在線自優(yōu)化能力,該方案顯著提升了機器人在精細操作場景下的精度、效率與泛化適應(yīng)性,為智能制造、精密裝配等領(lǐng)域的自動化升級提供了可行路徑。

       原文標題 : RL Token:破解 VLA “最后一厘米”精度難題,在線強化學(xué)習(xí)實現(xiàn)機器人精準操控

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號