近日,加州大學(xué)伯克利分校 BAIR 實驗室的 Sergey Levine 研究團隊提出了一種名為 HIL-SERL 的強化學(xué)習(xí)框架,旨在解決機器人在現(xiàn)實世界中學(xué)習(xí)復(fù)雜操作技能的難題。
這項新技術(shù)將人類演示和糾正與高效的強化學(xué)習(xí)算法相結(jié)合,使機器人能夠在短短1到2.5小時內(nèi)掌握各種精密靈巧的操作任務(wù),例如動態(tài)操作、精密裝配和雙臂協(xié)作。
以前,讓機器人學(xué)習(xí)新技能,那叫一個費勁,就像教一個熊孩子寫作業(yè),得手把手地教,還得一遍遍地糾正。更讓人頭疼的是,現(xiàn)實世界里各種情況復(fù)雜多變,機器人往往學(xué)得慢、忘得快,一不小心就翻車。
而 HIL-SERL 這個框架,就像給機器人請了個“家教”,不僅有詳細的“教材”,也就是人類的演示和糾正,還配備了高效的學(xué)習(xí)算法,幫助機器人快速掌握各種技能。
你只需要示范幾次,機器人就能像模像樣地完成各種操作,從玩積木、翻煎餅,到組裝家具、安裝電路板,簡直無所不能!
為了讓機器人學(xué)得更快、更好,HIL-SERL 還引入了一種人機交互的糾正機制。簡單來說,就是當(dāng)機器人犯錯的時候,人類操作員可以及時介入,進行糾正,并把這些糾正信息反饋給機器人。這樣一來,機器人就能不斷從錯誤中學(xué)習(xí),避免重復(fù)犯錯,最終成為一個真正的高手。
經(jīng)過一系列實驗,HIL-SERL 的效果那是杠杠的。在各種任務(wù)中,機器人都在短短1到2.5小時內(nèi)達到了接近100% 的成功率,而且操作速度也比以前快了近2倍。
更重要的是,HIL-SERL 是第一個在現(xiàn)實世界中使用強化學(xué)習(xí)實現(xiàn)基于圖像輸入的雙臂協(xié)調(diào)的系統(tǒng),也就是說,它可以讓兩個機器人手臂協(xié)同工作,完成更復(fù)雜的任務(wù),比如組裝同步帶這種需要高度配合的操作。
HIL-SERL 的出現(xiàn),不僅讓我們看到了機器人學(xué)習(xí)的巨大潛力,也為未來的工業(yè)應(yīng)用和研究指明了方向。說不定,以后我們每個人家里都會有一個這樣的機器人“學(xué)徒”,幫我們做家務(wù)、組裝家具,甚至還能陪我們玩游戲,想想就覺得很爽啊!
當(dāng)然,HIL-SERL 也有一些局限性。比如,對于一些需要長期規(guī)劃的任務(wù),它可能就顯得力不從心了。 另外,目前 HIL-SERL 主要是在實驗室環(huán)境中進行測試,還沒有經(jīng)過大規(guī)模的現(xiàn)實場景驗證。 不過,相信隨著技術(shù)的進步,這些問題都會逐步得到解決。
論文地址:https://hil-serl.github.io/static/hil-serl-paper.pdf
項目地址:https://hil-serl.github.io/
備注:資訊來源AIbase基地AiBase副業(yè)搞錢交流群
歡迎大家加入AiBase交流群, 掃碼進入,暢談AI賺錢心得,共享最新行業(yè)動態(tài),發(fā)現(xiàn)潛在合作伙伴,迎接未來的賺錢機遇!。