訂閱
糾錯(cuò)
加入自媒體

定義下一代機(jī)器人訓(xùn)練,智元 SOP:VLA 模型真實(shí)世界分布式在線后訓(xùn)練的關(guān)鍵突破

當(dāng)前,VLA模型通過大規(guī)模預(yù)訓(xùn)練具備了出色的泛化能力,但在實(shí)際場(chǎng)景部署時(shí),除了需要廣泛的通用性,還需達(dá)到專家級(jí)的任務(wù)執(zhí)行水平。以家庭機(jī)器人為例:它必須能夠折疊衣物、整理貨架、組裝家具,同時(shí)展現(xiàn)出堪比專用設(shè)備所要求的可靠性與精確性。

要讓機(jī)器人實(shí)現(xiàn)能真正干活的目標(biāo),剩余的挑戰(zhàn)就在于:如何在不犧牲通過大規(guī)模預(yù)訓(xùn)練所獲得的通用性的前提下,賦予這些模型專家級(jí)的熟練度。

那么,問題的關(guān)鍵就在于后訓(xùn)練—— 使預(yù)訓(xùn)練模型適應(yīng)特定的下游部署場(chǎng)景。在大型語(yǔ)言模型(LLMs)等領(lǐng)域,通過在線強(qiáng)化學(xué)習(xí)(RL)和人類反饋進(jìn)行的后訓(xùn)練已被證明非常有效,使模型能夠通過大規(guī)模分布式訓(xùn)練持續(xù)改進(jìn)。然而,對(duì)于物理世界中的VLA后訓(xùn)練,結(jié)合分布式數(shù)據(jù)收集的在線學(xué)習(xí)的系統(tǒng)級(jí)實(shí)現(xiàn),在很大程度上仍未得到充分探索。

現(xiàn)有針對(duì)VLA 模型的后訓(xùn)練方法多為離線式、單機(jī)器人適配或特定任務(wù)專用。在這種模式下,數(shù)據(jù)收集與策略改進(jìn)在結(jié)構(gòu)上是脫節(jié)的。

對(duì)預(yù)先收集的演示數(shù)據(jù)進(jìn)行離線訓(xùn)練,不可避免地會(huì)遭受分布偏移的影響,微小的執(zhí)行誤差會(huì)在長(zhǎng)時(shí)程任務(wù)中不斷累積。這限制了模型在現(xiàn)實(shí)交互過程中的高效在線策略適配與可擴(kuò)展學(xué)習(xí)。

為此,智元機(jī)器人提出一種可擴(kuò)展在線后訓(xùn)練系統(tǒng) —— SOP(Scalable Online Post-training),這是一套閉環(huán)智能體- 學(xué)習(xí)器架構(gòu),能夠依托異構(gòu)機(jī)器人集群的持續(xù)真實(shí)場(chǎng)景交互數(shù)據(jù),對(duì)預(yù)訓(xùn)練的VLA模型進(jìn)行適配優(yōu)化。

SOP系統(tǒng)工作流程

機(jī)器人集群在各類任務(wù)中持續(xù)采集經(jīng)驗(yàn)數(shù)據(jù),將交互數(shù)據(jù)實(shí)時(shí)傳輸至中心化云端服務(wù)器,并異步接收更新后的控制策略—— 使 VLA 模型在保持通用性的同時(shí),提升各任務(wù)的執(zhí)行熟練度。

一、什么是SOP?

SOP 系統(tǒng)采用閉環(huán)架構(gòu),將執(zhí)行與學(xué)習(xí)環(huán)節(jié)緊密耦合:機(jī)器人集群與中心化云端學(xué)習(xí)器之間持續(xù)交互 —— 前者向后者傳輸在線策略軌跡數(shù)據(jù)與人工干預(yù)信號(hào),后者則向前者異步下發(fā)更新后的控制策略。這種 “采集 - 訓(xùn)練 - 部署” 的閉環(huán)模式,可實(shí)現(xiàn)低延遲的模型適配,且適配效率隨機(jī)器人集群規(guī)模的擴(kuò)大而自然提升。

SOP 框架包含三個(gè)核心模塊:

由機(jī)器人智能體執(zhí)行的分布式在線策略數(shù)據(jù)采集;

基于在線- 離線混合數(shù)據(jù)的集中式云端優(yōu)化;

向智能體端回傳的低延遲模型同步機(jī)制。

SOP系統(tǒng)架構(gòu)

SOP 采用 Actor–Learner 異步架構(gòu):

1)Actor(機(jī)器人側(cè))并行經(jīng)驗(yàn)采集

多臺(tái)部署了同一policy模型的機(jī)器人(actors)在不同地點(diǎn)同時(shí)執(zhí)行多樣任務(wù),持續(xù)采集成功、失敗以及人類接管產(chǎn)生的交互數(shù)據(jù)。每臺(tái)機(jī)器人的經(jīng)驗(yàn)數(shù)據(jù)被匯總傳輸至云端 Experience Buffer中。

2)Learner(云端)在線學(xué)習(xí)

所有交互軌跡實(shí)時(shí)上傳至云端learner,形成由在線數(shù)據(jù)與離線專家示教數(shù)據(jù)組成的數(shù)據(jù)池。

系統(tǒng)通過動(dòng)態(tài)重采樣策略,根據(jù)不同任務(wù)的性能表現(xiàn),自適應(yīng)調(diào)整在線/離線數(shù)據(jù)比例,以更高效地利用真實(shí)世界經(jīng)驗(yàn)。

3)即時(shí)參數(shù)同步

更新后的模型參數(shù)在分鐘級(jí)別內(nèi)同步回所有機(jī)器人,實(shí)現(xiàn)集群一致進(jìn)化,維持在線訓(xùn)練的穩(wěn)定性。

SOP 是一套可擴(kuò)展的Actor–Learner 框架,適用于通用策略的在線多任務(wù)后訓(xùn)練。機(jī)器人集群會(huì)將在線策略軌跡采樣數(shù)據(jù)實(shí)時(shí)傳輸至云端學(xué)習(xí)器。

當(dāng)系統(tǒng)出現(xiàn)故障或判定結(jié)果存疑時(shí),將觸發(fā)可選的人工干預(yù)流程,人工修正后的軌跡或動(dòng)作會(huì)被納入緩存區(qū)。云端學(xué)習(xí)器通過融合在線緩存區(qū)與靜態(tài)離線緩存區(qū)的數(shù)據(jù),生成任務(wù)均衡的更新參數(shù);隨后接入插件式后訓(xùn)練模塊(如HG-DAgger/RECAP),并將更新后的權(quán)重異步廣播至所有Actor(智能體),從而形成低延遲的在線訓(xùn)練閉環(huán)。

二、SOP的實(shí)現(xiàn)效果如何?

值得注意的是,SOP 具備算法無(wú)關(guān)性:該框架僅定義系統(tǒng)級(jí)的數(shù)據(jù)流與同步規(guī)則,具體的參數(shù)更新方法可替換為任意后訓(xùn)練算法。

在本研究中,智元團(tuán)隊(duì)基于兩種現(xiàn)有后訓(xùn)練方法——HG-DAgger 與 RECAP —— 搭建 SOP 的實(shí)例化模型,并通過持續(xù)輸入實(shí)時(shí)交互經(jīng)驗(yàn)、執(zhí)行高頻異步模型更新,驗(yàn)證 SOP 可將這兩種方法升級(jí)為可落地的在線策略式在線后訓(xùn)練方案。

在一系列現(xiàn)實(shí)操作任務(wù)(包括布料折疊、箱體組裝和雜貨補(bǔ)貨)的測(cè)試中,智元機(jī)器人驗(yàn)證了SOP 系統(tǒng)能夠顯著提升大規(guī)模預(yù)訓(xùn)練 VLA 模型的性能,同時(shí)維持跨任務(wù)的單一共享策略。僅需數(shù)小時(shí)的現(xiàn)實(shí)交互即可完成高效的后訓(xùn)練,且模型性能與機(jī)器人集群的規(guī)模呈近似線性正相關(guān)。上述結(jié)果表明,將在線學(xué)習(xí)與集群級(jí)部署緊密結(jié)合,是實(shí)現(xiàn)通用型機(jī)器人策略在物理世界中高效、可靠、可擴(kuò)展后訓(xùn)練的關(guān)鍵技術(shù)路徑。

整體來(lái)看,研究團(tuán)隊(duì)圍繞三個(gè)問題系統(tǒng)評(píng)估SOP:

1)SOP 能為預(yù)訓(xùn)練 VLA 帶來(lái)多大性能提升?

2)機(jī)器人規(guī)模如何影響學(xué)習(xí)效率?

3)不同預(yù)訓(xùn)練規(guī)模下SOP 是否穩(wěn)定有效?

1. SOP 能為預(yù)訓(xùn)練 VLA 帶來(lái)多大性能提升

實(shí)驗(yàn)結(jié)果說明,在各類測(cè)試場(chǎng)景下,結(jié)合SOP的后訓(xùn)練方法均得到了顯著的性能提升。相比預(yù)訓(xùn)練模型,結(jié)合SOP的HG-Dagger方法在物品繁雜的商超場(chǎng)景中實(shí)現(xiàn)了33%的綜合性能提升。對(duì)于靈巧操作任務(wù)(疊衣服和紙盒裝配),SOP 的引入不僅提升了任務(wù)的成功率,結(jié)合在線經(jīng)驗(yàn)學(xué)習(xí)到的錯(cuò)誤恢復(fù)能力還能明顯提升策略操作的吞吐量。

結(jié)合SOP的HG-Dagger方法讓疊衣服的相比HG-Dagger吞吐量躍升114%。SOP讓多任務(wù)通才的性能普遍提升至近乎完美,不同任務(wù)的成功率均提升至94%以上,紙盒裝配更是達(dá)到98%的成功率。

SOP性能提升

為了進(jìn)一步測(cè)試真機(jī)SOP訓(xùn)練后VLA模型是否達(dá)到專家級(jí)性能,研究團(tuán)隊(duì)讓SOP訓(xùn)練的VLA模型進(jìn)行了長(zhǎng)達(dá)36小時(shí)的連續(xù)操作,模型展現(xiàn)出了驚人的穩(wěn)定性和魯棒性,能夠有效應(yīng)對(duì)真實(shí)世界中出現(xiàn)的各種疑難雜癥。

2. 機(jī)器人規(guī)模如何影響學(xué)習(xí)效率

智元使用了三種機(jī)器人隊(duì)伍數(shù)量(單機(jī)、雙機(jī)、四機(jī)配置),在同樣的數(shù)據(jù)傳送總量的基礎(chǔ)上,進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,在相同的總訓(xùn)練時(shí)間下,更多數(shù)量的機(jī)器人帶來(lái)了更高的性能表現(xiàn)。在總訓(xùn)練時(shí)間為3小時(shí)的限制下,四機(jī)進(jìn)行學(xué)習(xí)的最終成功率達(dá)到了92.5%,比單機(jī)高出12%。

研究團(tuán)隊(duì)認(rèn)為,多機(jī)采集可以有效阻止模型過擬合到單機(jī)的特定特征上。同時(shí),SOP 還將硬件的擴(kuò)展轉(zhuǎn)化為了學(xué)習(xí)時(shí)長(zhǎng)的大幅縮短,四機(jī)器人集群相比單機(jī)能夠?qū)⒛P瓦_(dá)到目標(biāo)性能的訓(xùn)練速度增至2.4倍。

SOP學(xué)習(xí)效率提升

3. 不同預(yù)訓(xùn)練規(guī)模下SOP 是否穩(wěn)定有效?

研究團(tuán)隊(duì)把總量為160小時(shí)的多任務(wù)預(yù)訓(xùn)練數(shù)據(jù)分為了三組:20小時(shí),80小時(shí)和160小時(shí),分別訓(xùn)練一組初始模型后再進(jìn)行 SOP。

研究發(fā)現(xiàn),預(yù)訓(xùn)練的規(guī)模決定了基座模型和后訓(xùn)練提升的軌跡。SOP 能為所有初始模型帶來(lái)穩(wěn)定的提升,且最終性能與VLA預(yù)訓(xùn)練質(zhì)量正相關(guān)。

同時(shí),對(duì)比80小時(shí)和160小時(shí)實(shí)驗(yàn)效果,也可以明顯注意到,在解決特定失敗情況時(shí),在軌策略經(jīng)驗(yàn)帶來(lái)了非常顯著的邊際效果。

SOP 在三小時(shí)的在軌經(jīng)驗(yàn)下就獲得了約30%的性能提升,而80小時(shí)額外人類專家數(shù)據(jù)只帶來(lái)了4%的提升。這說明在預(yù)訓(xùn)練出現(xiàn)邊際效應(yīng)遞減的情況下,SOP 能夠高效突破VLA性能瓶頸。

SOP在不同預(yù)訓(xùn)練數(shù)據(jù)規(guī)模下的對(duì)比

三、未來(lái)展望

智元機(jī)器人的本次研究結(jié)果表明,執(zhí)行與學(xué)習(xí)的系統(tǒng)級(jí)耦合對(duì)于后訓(xùn)練的成功而言,其重要性與底層算法不相上下。通過讓機(jī)器人集群持續(xù)上傳在線策略經(jīng)驗(yàn)數(shù)據(jù),并反向接收更新后的策略模型,SOP 框架將傳統(tǒng)的階段性微調(diào)模式,升級(jí)為可規(guī);瘮U(kuò)展的閉環(huán)學(xué)習(xí)模式。

研究發(fā)現(xiàn),在線策略修正產(chǎn)生的邊際效用,顯著高于新增離線數(shù)據(jù)的效用增益,這一結(jié)論印證了一個(gè)業(yè)內(nèi)普遍共識(shí):靜態(tài)數(shù)據(jù)集無(wú)法完全預(yù)判部署后策略所觸發(fā)的狀態(tài)分布變化 。而SOP 則在系統(tǒng)層面,將這一結(jié)論轉(zhuǎn)化為了可落地的技術(shù)方案。

盡管已展現(xiàn)出優(yōu)異性能,SOP 目前仍需依賴人工干預(yù)或任務(wù)專屬獎(jiǎng)勵(lì)信號(hào)開展訓(xùn)練。未來(lái)的重要研究方向在于,通過習(xí)得獎(jiǎng)勵(lì)模型或基于基礎(chǔ)模型的任務(wù)成功檢測(cè)技術(shù),降低此類監(jiān)督成本。

此外,兩個(gè)亟待探索的開放性問題仍有待解答:

一是當(dāng)前近乎線性的擴(kuò)展效率能否延伸至規(guī)模更為龐大的機(jī)器人集群;

二是如何在實(shí)現(xiàn)新技能持續(xù)習(xí)得的同時(shí),避免出現(xiàn)災(zāi)難性遺忘現(xiàn)象。

展望未來(lái),智元機(jī)器人構(gòu)想了這樣一幅圖景:機(jī)器人集群可依托實(shí)際部署過程中的經(jīng)驗(yàn)數(shù)據(jù),共同維護(hù)一套共享且持續(xù)迭代的策略模型。

從這個(gè)角度來(lái)看,機(jī)器人部署規(guī)模的擴(kuò)大,等同于學(xué)習(xí)算力的擴(kuò)充—— 每新增一臺(tái)機(jī)器人,都會(huì)進(jìn)一步加速策略模型的優(yōu)化進(jìn)程。

       原文標(biāo)題 : 定義下一代機(jī)器人訓(xùn)練?智元 SOP:VLA 模型真實(shí)世界分布式在線后訓(xùn)練的關(guān)鍵突破

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)