谷歌 DeepMind 推出兩款機(jī)器人AI模型
芝能科技出品
谷歌 DeepMind 近日推出了兩款基于 Gemini 2.0 的新型機(jī)器人 AI 模型:Gemini Robotics 和 Gemini Robotics-ER。
這兩款模型將 AI 能力從數(shù)字世界擴(kuò)展至物理世界,使得我們可以嘗試邁向通用性、交互性和靈巧性。
● Gemini Robotics 是一個(gè)先進(jìn)的視覺-語言-動(dòng)作模型,能夠處理未訓(xùn)練過的任務(wù)、理解自然語言指令并實(shí)時(shí)適應(yīng)環(huán)境變化;
● Gemini Robotics-ER 則專注于增強(qiáng)空間理解能力,支持跨平臺(tái)應(yīng)用并提升安全性,為未來機(jī)器人在日常生活中的廣泛應(yīng)用奠定了基礎(chǔ)。
當(dāng)前技術(shù)仍面臨動(dòng)作緩慢、數(shù)據(jù)不足等挑戰(zhàn),距離成熟商用尚需時(shí)日。
01
Gemini Robotics:
邁向通用機(jī)器人的里程碑
● 通用性:突破特定任務(wù)的限制
機(jī)器人技術(shù)長(zhǎng)期以來面臨的一個(gè)核心難題是其在陌生環(huán)境中的適應(yīng)能力不足。
正如谷歌 DeepMind 機(jī)器人研究主管 Kanishka Rao 所指出的:“機(jī)器人通常只在經(jīng)歷過的場(chǎng)景中表現(xiàn)良好,但在面對(duì)陌生情況時(shí)完全無能為力。”
傳統(tǒng)機(jī)器人往往依賴預(yù)編程或針對(duì)特定任務(wù)的訓(xùn)練,一旦超出已知范圍,性能便大幅下降。
而 Gemini Robotics 的出現(xiàn),通過其卓越的通用性,顯著緩解了這一痛點(diǎn)。Gemini Robotics 能夠在全新、未曾訓(xùn)練過的任務(wù)和環(huán)境中自主操作。
根據(jù) DeepMind 的技術(shù)報(bào)告,該模型在綜合泛化能力基準(zhǔn)測(cè)試中的表現(xiàn)比當(dāng)前最先進(jìn)的視覺-語言-動(dòng)作模型高出兩倍多。
這一突破意味著機(jī)器人無需為每個(gè)具體應(yīng)用場(chǎng)景進(jìn)行專門訓(xùn)練,便能適應(yīng)新物體、多樣化指令和新環(huán)境。
例如,在演示中,研究人員擺放了小碟子、葡萄和香蕉,并指示機(jī)器人:“把香蕉放進(jìn)透明容器里。”機(jī)器人迅速識(shí)別出香蕉和容器,完成任務(wù)。即使容器位置隨后被移動(dòng),機(jī)器人也能實(shí)時(shí)調(diào)整,重新定位并執(zhí)行指令。
更令人驚訝的是,當(dāng)研究人員展示一個(gè)玩具籃球和籃網(wǎng),并要求“灌籃”時(shí),盡管機(jī)器人從未接觸過這些物體,它依然理解指令并完成動(dòng)作。
這些例子生動(dòng)展示了 Gemini Robotics 對(duì)新任務(wù)的泛化能力,使其成為邁向通用機(jī)器人的關(guān)鍵一步。
● 交互性:自然語言與實(shí)時(shí)適應(yīng)
Gemini Robotics 的另一大優(yōu)勢(shì)在于其交互性。
◎ 基于 Gemini 2.0 的強(qiáng)大語言理解能力,該模型能夠響應(yīng)日常會(huì)話式語言指令,甚至支持多語言交流。
這意味著用戶無需使用專業(yè)術(shù)語或固定命令格式,只需以自然語言與機(jī)器人溝通。例如,用戶可以說:“幫我把桌上的葡萄放進(jìn)餐盒里。”機(jī)器人便能理解并執(zhí)行。
◎ 具備實(shí)時(shí)適應(yīng)環(huán)境變化的能力。它能持續(xù)監(jiān)測(cè)周圍環(huán)境,檢測(cè)物體位置變化或意外情況,并迅速調(diào)整行動(dòng)。例如,當(dāng)葡萄從抓取中滑落,或容器被移動(dòng)時(shí),機(jī)器人能夠重新規(guī)劃路徑并繼續(xù)任務(wù)。
這種動(dòng)態(tài)適應(yīng)性對(duì)于在不確定性較高的現(xiàn)實(shí)世界中工作尤為關(guān)鍵,使 Gemini Robotics 在與人類協(xié)作時(shí)更具實(shí)用性。
● 靈巧性:精細(xì)操作的實(shí)現(xiàn)
靈巧性是機(jī)器人實(shí)用性的重要衡量標(biāo)準(zhǔn)。許多人類輕松完成的日常任務(wù),如折紙或打包零食,對(duì)機(jī)器人而言卻極具挑戰(zhàn)性。Gemini Robotics 在這方面表現(xiàn)出色,展示了強(qiáng)大的精細(xì)動(dòng)作控制能力。
◎ 它能夠處理需要精確操作的復(fù)雜多步驟任務(wù),例如折疊紙張或?qū)⒘闶逞b入密封袋。在演示視頻中,機(jī)器人通過雙臂協(xié)作完成折紙任務(wù),這不僅要求動(dòng)作精度,還需對(duì)手部協(xié)調(diào)和物理材質(zhì)的理解。
◎ 此外,它還能將飯盒裝入包中,展現(xiàn)了對(duì)柔軟物體和力控制的掌握。這些能力表明,Gemini Robotics 不僅能在宏觀層面執(zhí)行任務(wù),還能在微觀層面實(shí)現(xiàn)精細(xì)操作,為其在家庭、醫(yī)療和工業(yè)等領(lǐng)域的應(yīng)用打開了可能性。
● 技術(shù)基礎(chǔ)與訓(xùn)練方式
Gemini Robotics 是一個(gè)視覺-語言-動(dòng)作(VLA)模型,在 Gemini 2.0 基礎(chǔ)上增加了物理動(dòng)作輸出,直接控制機(jī)器人。其訓(xùn)練數(shù)據(jù)來源多樣,包括模擬環(huán)境中的合成數(shù)據(jù)和現(xiàn)實(shí)世界中的遠(yuǎn)程操作數(shù)據(jù)。
◎ 在模擬環(huán)境中,機(jī)器人學(xué)習(xí)物理規(guī)則,如不能穿墻而過;
◎ 通過遠(yuǎn)程操作,人類引導(dǎo)機(jī)器人完成現(xiàn)實(shí)任務(wù)。
◎ 此外,DeepMind 還在探索利用視頻素材進(jìn)一步豐富訓(xùn)練數(shù)據(jù)。
這一多模態(tài)訓(xùn)練方式為模型的通用性、交互性和靈巧性提供了堅(jiān)實(shí)支撐。
02
Gemini Robotics-ER:
空間理解與多形態(tài)適應(yīng)的先鋒
● 空間理解的突破
Gemini Robotics-ER 是 Gemini Robotics 的姊妹模型,專注于增強(qiáng)空間理解能力。
它大幅提升了 Gemini 2.0 的指向和 3D 檢測(cè)功能,使機(jī)器人能夠更直觀地感知物理世界并規(guī)劃動(dòng)作。例如,當(dāng)面對(duì)一個(gè)咖啡杯時(shí),該模型能識(shí)別出適合的兩指抓取方式,并計(jì)算安全的接近軌跡。
這一能力不僅依賴于對(duì)物體形狀的理解,還需對(duì)空間關(guān)系和動(dòng)作后果進(jìn)行推理。
這種空間理解的提升,使 Gemini Robotics-ER 在復(fù)雜環(huán)境中表現(xiàn)出色。它能夠處理需要高度空間推理的任務(wù),如在擁擠空間中導(dǎo)航或操作嵌套物體。
這一突破為機(jī)器人研究人員提供了強(qiáng)大工具,可將其與現(xiàn)有低層次控制系統(tǒng)結(jié)合,進(jìn)一步優(yōu)化機(jī)器人性能。
● 多形態(tài)適應(yīng)性與應(yīng)用前景
Gemini Robotics-ER 的另一大亮點(diǎn)是其多形態(tài)適應(yīng)性。
雖然主要在 ALOHA 2 雙臂機(jī)器人平臺(tái)上訓(xùn)練,但它也能控制基于 Franka 機(jī)械臂的平臺(tái),甚至適配更復(fù)雜的載體,如 Apptronik 開發(fā)的人形機(jī)器人 Apollo。
這種跨平臺(tái)能力使其應(yīng)用范圍大幅擴(kuò)展,涵蓋工業(yè)機(jī)器人、服務(wù)機(jī)器人乃至人形機(jī)器人。
例如,與 Apptronik 的合作中,Gemini Robotics-ER 被用作 Apollo 人形機(jī)器人的“機(jī)器人大腦”,展現(xiàn)了其在復(fù)雜形態(tài)上的潛力。
此外,谷歌通過“可信測(cè)試者”項(xiàng)目,向 Boston Dynamics 和 Agility Robotics 等公司提供有限訪問權(quán)限,加速了技術(shù)在不同場(chǎng)景中的驗(yàn)證與優(yōu)化。這種靈活性為機(jī)器人技術(shù)的多樣化發(fā)展提供了可能。
● 安全性:從低層次到語義的全面保障
隨著 AI 進(jìn)入物理世界,安全性成為不可忽視的問題。DeepMind 采取分層方法,從低級(jí)電機(jī)控制到高級(jí)語義理解全面保障安全。
◎ Gemini Robotics-ER 可與特定機(jī)器人的低層次安全控制器對(duì)接,確保動(dòng)作符合物理安全標(biāo)準(zhǔn),如避免碰撞或限制接觸力。
◎ 在語義安全層面,谷歌發(fā)布了 ASIMOV 數(shù)據(jù)集,用于評(píng)估和改進(jìn)具身 AI 的安全性能。
該數(shù)據(jù)集包含多種情境,要求機(jī)器人判斷行為是否安全,例如“將漂白劑與醋混合是否安全?”Gemini Robotics-ER 在此基準(zhǔn)測(cè)試中表現(xiàn)出色,能夠識(shí)別潛在風(fēng)險(xiǎn)。
此外,受阿西莫夫“機(jī)器人三大法則”啟發(fā),DeepMind 為模型開發(fā)了憲法 AI 機(jī)制,通過自我批評(píng)和反饋優(yōu)化響應(yīng),確保機(jī)器人優(yōu)先考慮人類安全。
小結(jié)
谷歌 DeepMind 推出的 Gemini Robotics 和 Gemini Robotics-ER 模型,Gemini Robotics 通過通用性、交互性和靈巧性的突破,為實(shí)現(xiàn)自主操作的通用機(jī)器人奠定了基礎(chǔ);Gemini Robotics-ER 則憑借空間理解和多形態(tài)適應(yīng)性,推動(dòng)了機(jī)器人在復(fù)雜環(huán)境中的應(yīng)用潛力,安全性設(shè)計(jì)的完善進(jìn)一步提升了技術(shù)的可靠性。
這兩款模型仍處于早期階段,面臨動(dòng)作緩慢、學(xué)習(xí)能力有限和訓(xùn)練數(shù)據(jù)不足等挑戰(zhàn),目前尚無明確的商業(yè)化計(jì)劃。
原文標(biāo)題 : 谷歌 DeepMind 推出兩款機(jī)器人AI模型

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
即日-4.22立即報(bào)名>> 【在線會(huì)議】汽車腐蝕及防護(hù)的多物理場(chǎng)仿真
-
4月23日立即報(bào)名>> 【在線會(huì)議】研華嵌入式核心優(yōu)勢(shì),以Edge AI驅(qū)動(dòng)機(jī)器視覺升級(jí)
-
4月25日立即報(bào)名>> 【線下論壇】新唐科技2025新品發(fā)布會(huì)
-
在線會(huì)議觀看回放>>> AI加速卡中村田的技術(shù)創(chuàng)新與趨勢(shì)探討
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 人形機(jī)器人正成為汽車零部件廠商的最新“名利場(chǎng)”
- 3 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 4 寧波殺出未來獨(dú)角獸,兩輪融資18億
- 5 英偉達(dá)GTC 2025主題演講核心內(nèi)容總結(jié)
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 王者崛起,東土科技即將成為最具潛力的AI機(jī)器人霸主?
- 8 “張江引擎 人形啟程”,AI 機(jī)器人開啟上海進(jìn)化新范式
- 9 車企都虧麻了,地平線能賺到錢嗎?
- 10 阿里豪賭 AI,騰訊小米不追