幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > AI頭條  > 正文

加州大學(xué)伯克利分校打造機器人“學(xué)徒”:會玩積木、還能組裝宜家家具

2024-10-29 17:17 · 來源: AIbase基地

近日,加州大學(xué)伯克利分校 BAIR 實驗室的 Sergey Levine 研究團隊提出了一種名為 HIL-SERL 的強化學(xué)習(xí)框架,旨在解決機器人在現(xiàn)實世界中學(xué)習(xí)復(fù)雜操作技能的難題。 

這項新技術(shù)將人類演示和糾正與高效的強化學(xué)習(xí)算法相結(jié)合,使機器人能夠在短短1到2.5小時內(nèi)掌握各種精密靈巧的操作任務(wù),例如動態(tài)操作、精密裝配和雙臂協(xié)作。

以前,讓機器人學(xué)習(xí)新技能,那叫一個費勁,就像教一個熊孩子寫作業(yè),得手把手地教,還得一遍遍地糾正。更讓人頭疼的是,現(xiàn)實世界里各種情況復(fù)雜多變,機器人往往學(xué)得慢、忘得快,一不小心就翻車。

image.png

而 HIL-SERL 這個框架,就像給機器人請了個“家教”,不僅有詳細的“教材”,也就是人類的演示和糾正,還配備了高效的學(xué)習(xí)算法,幫助機器人快速掌握各種技能。

你只需要示范幾次,機器人就能像模像樣地完成各種操作,從玩積木、翻煎餅,到組裝家具、安裝電路板,簡直無所不能!

為了讓機器人學(xué)得更快、更好,HIL-SERL 還引入了一種人機交互的糾正機制。簡單來說,就是當(dāng)機器人犯錯的時候,人類操作員可以及時介入,進行糾正,并把這些糾正信息反饋給機器人。這樣一來,機器人就能不斷從錯誤中學(xué)習(xí),避免重復(fù)犯錯,最終成為一個真正的高手。

image.png

經(jīng)過一系列實驗,HIL-SERL 的效果那是杠杠的。在各種任務(wù)中,機器人都在短短1到2.5小時內(nèi)達到了接近100% 的成功率,而且操作速度也比以前快了近2倍。

更重要的是,HIL-SERL 是第一個在現(xiàn)實世界中使用強化學(xué)習(xí)實現(xiàn)基于圖像輸入的雙臂協(xié)調(diào)的系統(tǒng),也就是說,它可以讓兩個機器人手臂協(xié)同工作,完成更復(fù)雜的任務(wù),比如組裝同步帶這種需要高度配合的操作。

HIL-SERL 的出現(xiàn),不僅讓我們看到了機器人學(xué)習(xí)的巨大潛力,也為未來的工業(yè)應(yīng)用和研究指明了方向。說不定,以后我們每個人家里都會有一個這樣的機器人“學(xué)徒”,幫我們做家務(wù)、組裝家具,甚至還能陪我們玩游戲,想想就覺得很爽啊!

當(dāng)然,HIL-SERL 也有一些局限性。比如,對于一些需要長期規(guī)劃的任務(wù),它可能就顯得力不從心了。 另外,目前 HIL-SERL 主要是在實驗室環(huán)境中進行測試,還沒有經(jīng)過大規(guī)模的現(xiàn)實場景驗證。 不過,相信隨著技術(shù)的進步,這些問題都會逐步得到解決。

論文地址:https://hil-serl.github.io/static/hil-serl-paper.pdf

項目地址:https://hil-serl.github.io/

備注:資訊來源AIbase基地

AiBase副業(yè)搞錢交流群

歡迎大家加入AiBase交流群, 掃碼進入,暢談AI賺錢心得,共享最新行業(yè)動態(tài),發(fā)現(xiàn)潛在合作伙伴,迎接未來的賺錢機遇!。

AiBase副業(yè)搞錢交流群

  • 相關(guān)推薦
  • 大家在看
  • MobileLLM-125M:高效優(yōu)化的小型語言模型,專為設(shè)備端應(yīng)用設(shè)計。

    MobileLLM-125M是由Meta開發(fā)的自動回歸語言模型,它利用優(yōu)化的變換器架構(gòu),專為資源受限的設(shè)備端應(yīng)用而設(shè)計。該模型集成了包括SwiGLU激活函數(shù)、深度薄架構(gòu)、嵌入共享和分組查詢注意力等多項關(guān)鍵技術(shù)。MobileLLM-125M/350M在零樣本常識推理任務(wù)上相較于前代125M/350M SoTA模型分別取得了2.7%和4.3%的準(zhǔn)確率提升。該模型的設(shè)計理念可有效擴展到更大模型,MobileLLM-600M/1B/1.5B均取得了SoTA結(jié)果。

  • Claude 3.5 Haiku:先進的編程、工具使用和推理能力的模型

    Claude 3.5 Haiku是Anthropic公司推出的最新最快的模型,它在編程、工具使用和推理任務(wù)上表現(xiàn)出色,并且價格親民。該模型在速度上與Claude 3 Haiku相似,但在各項技能上都有提升,甚至在許多智能基準(zhǔn)測試上超越了上一代最大的模型Claude 3 Opus。Anthropic公司致力于AI的安全性,Claude 3.5 Haiku在開發(fā)過程中經(jīng)過了多語言和政策領(lǐng)域的廣泛安全評估,增強了處理敏感內(nèi)容的能力。

  • ComfyUI-MochiEdit:視頻編輯工具,使用Genmo Mochi技術(shù)

    ComfyUI-MochiEdit是一個基于Genmo Mochi技術(shù)的視頻編輯插件,允許用戶通過ComfyUI界面對視頻進行編輯。該插件的主要優(yōu)點在于其能夠利用先進的視頻處理技術(shù),提供給用戶一個直觀、易用的編輯環(huán)境。產(chǎn)品背景信息顯示,它是由logtd和kijai共同開發(fā),并且遵循GPL-3.0開源許可證。由于其開源特性,該插件可以免費使用,定位于需要視頻編輯功能的專業(yè)用戶或愛好者。

  • hertz-dev:開源的全雙工音頻生成基礎(chǔ)模型

    hertz-dev是Standard Intelligence開源的全雙工、僅音頻的變換器基礎(chǔ)模型,擁有85億參數(shù)。該模型代表了可擴展的跨模態(tài)學(xué)習(xí)技術(shù),能夠?qū)温暤?6kHz語音轉(zhuǎn)換為8Hz潛在表示,具有1kbps的比特率,性能優(yōu)于其他音頻編碼器。hertz-dev的主要優(yōu)點包括低延遲、高效率和易于研究人員進行微調(diào)和構(gòu)建。產(chǎn)品背景信息顯示,Standard Intelligence致力于構(gòu)建對全人類有益的通用智能,而hertz-dev是這一旅程的第一步。

  • Alex Sidebar:Xcode的智能側(cè)邊欄助手

    Alex Sidebar是一個為Xcode設(shè)計的智能側(cè)邊欄插件,它通過提供多種功能來增強開發(fā)者的編程效率。產(chǎn)品背景信息顯示,Alex Sidebar由Combinator支持,是一款在Beta階段免費提供給用戶的插件。它通過語義搜索、代碼生成、錯誤自動修復(fù)等功能,幫助開發(fā)者更快速、更智能地編寫代碼。

  • Claude Vision Object Detection:利用Claude 3.5 Sonnet Vision API進行圖像中物體檢測和可視化的強大Python工具

    Claude Vision Object Detection是一個基于Python的工具,它利用Claude 3.5 Sonnet Vision API來檢測圖像中的物體并進行可視化。該工具能夠自動在檢測到的物體周圍繪制邊界框,對它們進行標(biāo)記,并顯示置信度分?jǐn)?shù)。它支持處理單張圖片或整個目錄中的圖片,并且具有高精度的置信度分?jǐn)?shù),為每個檢測到的物體使用鮮艷且不同的顏色。此外,它還能保存帶有檢測結(jié)果的注釋圖片。

  • GyftPro:完美禮物,為每一個時刻準(zhǔn)備

    GyftPro是一款A(yù)I驅(qū)動的禮物推薦應(yīng)用,旨在簡化尋找完美禮物的過程。用戶可以通過這個應(yīng)用探索各種產(chǎn)品,保存禮物想法,甚至直接在應(yīng)用內(nèi)購買禮物。它的主要優(yōu)點包括個性化禮物推薦、基于事件的禮物清單管理、直接購買和通過聯(lián)盟鏈接探索產(chǎn)品、按品牌購物、社交禮物分享以及節(jié)日特別優(yōu)惠。GyftPro讓禮物購物變得有趣、簡單、無壓力。

  • MotionCLR:基于注意力機制的運動生成和無訓(xùn)練編輯模型

    MotionCLR是一個基于注意力機制的運動擴散模型,專注于人類動作的生成和編輯。它通過自注意力和交叉注意力機制,分別模擬模態(tài)內(nèi)和模態(tài)間的交互,實現(xiàn)對動作序列的精細控制和編輯。該模型的主要優(yōu)點包括無需訓(xùn)練即可進行編輯,具有較好的解釋性,能夠通過操作注意力圖來實現(xiàn)多種運動編輯方法,如動作的強調(diào)或減弱、就地替換動作、基于示例的動作生成等。MotionCLR的研究背景是解決以往運動擴散模型在細粒度編輯能力上的不足,通過清晰的文本-動作對應(yīng)關(guān)系,提高動作編輯的靈活性和精確性。

  • VoteGPT:智能選舉助手,幫助您了解候選人立場。

    VoteGPT是一個選舉輔助網(wǎng)站,它通過官方政策和維基百科提供的信息,幫助用戶了解不同候選人和政黨的立場。該產(chǎn)品的主要優(yōu)點是提供簡單、誠實、無偏見的信息,幫助用戶在選舉中做出更明智的選擇。產(chǎn)品背景信息顯示,它由Ethical.net創(chuàng)建,旨在為美國人民提供服務(wù)。

  • 可靈AI:新一代創(chuàng)意生產(chǎn)力平臺,點燃你的想象力

    可靈AI是一個基于可靈大模型和可圖大模型的創(chuàng)意生產(chǎn)力平臺,提供視頻、圖片生成與編輯能力。它允許用戶通過輸入文本或圖片來生成視頻和圖片,支持多種尺寸和風(fēng)格,并且可以將圖片一鍵生成視頻。該平臺還提供了一個創(chuàng)意圈,用戶可以在這里尋找創(chuàng)作靈感,并與其他創(chuàng)作者互動。產(chǎn)品背景信息顯示,可靈AI廣受海內(nèi)外創(chuàng)作者好評,其技術(shù)優(yōu)勢在于物理仿真理解、運動幅度和畫面審美表現(xiàn),以及降低制作成本。價格方面,可靈AI提供免費下載,并提供App內(nèi)購買項目。

  • Ferret-UI-Llama8b:基于Llama-3-8B的多模態(tài)大型語言模型,專注于UI任務(wù)。

    Ferret-UI是首個以用戶界面為中心的多模態(tài)大型語言模型(MLLM),專為指代表達、定位和推理任務(wù)設(shè)計。它基于Gemma-2B和Llama-3-8B構(gòu)建,能夠執(zhí)行復(fù)雜的用戶界面任務(wù)。這個版本遵循了Apple的研究論文,是一個強大的工具,可以用于圖像文本到文本的任務(wù),并且在對話和文本生成方面具有優(yōu)勢。

  • ManiSkill:開源機器人模擬平臺,用于生成無限機器人數(shù)據(jù)和泛化AI。

    ManiSkill是一個領(lǐng)先的開源平臺,專注于機器人模擬、無限機器人數(shù)據(jù)生成和泛化機器人AI。由HillBot.ai領(lǐng)導(dǎo),該平臺支持通過狀態(tài)和/或視覺輸入快速訓(xùn)練機器人,與其它平臺相比,ManiSkill/SAPIEN實現(xiàn)了10-100倍的視覺數(shù)據(jù)收集速度。它支持在GPU上并行模擬和渲染RGB-D,速度高達30,000+FPS。ManiSkill提供了40多種技能/任務(wù)和2000多個對象的預(yù)構(gòu)建任務(wù),擁有數(shù)百萬幀的演示和密集的獎勵函數(shù),用戶無需自己收集資產(chǎn)或設(shè)計任務(wù),可以專注于算法開發(fā)。此外,它還支持在每個并行環(huán)境中同時模擬不同的對象和關(guān)節(jié),訓(xùn)練泛化機器人策略/AI的時間從天縮短到分鐘。ManiSkill易于使用,可以通過pip安裝,并提供簡單靈活的GUI以及所有功能的廣泛文檔。

  • xAI API:開發(fā)者可使用的Grok系列基礎(chǔ)模型API

    xAI API提供了對Grok系列基礎(chǔ)模型的程序化訪問,支持文本和圖像輸入,具有128,000個token的上下文長度,并支持函數(shù)調(diào)用和系統(tǒng)提示。該API與OpenAI和Anthropic的API完全兼容,簡化了遷移過程。產(chǎn)品背景信息顯示,xAI正在進行公共Beta測試,直至2024年底,期間每位用戶每月可獲得25美元的免費API積分。

  • Chat Nio:國內(nèi)領(lǐng)先的LLM一站式企業(yè)解決方案

    Chat Nio是一個國內(nèi)領(lǐng)先的LLM(Large Language Model)一站式企業(yè)解決方案,提供強大的AI集成工具,支持35+主流AI模型,涵蓋文本生成、圖像創(chuàng)作、音頻處理和視頻編輯等領(lǐng)域,并支持私有化部署和中轉(zhuǎn)服務(wù)。它為開發(fā)者、個人用戶和企業(yè)提供定制化的AI解決方案,包括但不限于多租戶令牌分發(fā)、計費管理系統(tǒng)、深度集成Midjourney Proxy Plus繪畫功能、全方位調(diào)用日志記錄系統(tǒng)等。Chat Nio以其多功能性、靈活性和易用性,滿足企業(yè)和團隊的多樣化需求,幫助他們高效開發(fā)和部署AI應(yīng)用。

  • Grounding with Google Search:利用Google搜索提升AI模型的準(zhǔn)確性和信息新鮮度

    Gemini API和Google AI Studio現(xiàn)在提供與Google Search結(jié)合的Grounding功能,使開發(fā)者能夠獲得更準(zhǔn)確、更新的響應(yīng),這些響應(yīng)由Google搜索輔助的Gemini模型提供。此功能不僅可以提供更準(zhǔn)確的響應(yīng),還能返回支持鏈接和搜索建議,引導(dǎo)用戶找到與響應(yīng)相對應(yīng)的搜索結(jié)果。這一技術(shù)的應(yīng)用,可以減少AI應(yīng)用的虛構(gòu)信息,提供最新的信息,增強AI應(yīng)用的可信度,并且通過提供支持鏈接,增加發(fā)布者網(wǎng)站的流量。

  • Fish Agent V0.1 3B:高精度環(huán)境音頻信息捕捉與生成的語音轉(zhuǎn)語音模型

    Fish Agent V0.1 3B是一個開創(chuàng)性的語音轉(zhuǎn)語音模型,能夠以前所未有的精確度捕捉和生成環(huán)境音頻信息。該模型采用了無語義標(biāo)記架構(gòu),消除了傳統(tǒng)語義編碼器/解碼器的需求。此外,它還是一個尖端的文本到語音(TTS)模型,訓(xùn)練數(shù)據(jù)涵蓋了700,000小時的多語言音頻內(nèi)容。作為Qwen-2.5-3B-Instruct的繼續(xù)預(yù)訓(xùn)練版本,它在200B語音和文本標(biāo)記上進行了訓(xùn)練。該模型支持包括英語、中文在內(nèi)的8種語言,每種語言的訓(xùn)練數(shù)據(jù)量不同,其中英語和中文各約300,000小時,其他語言各約20,000小時。

  • Wonder Animation:Autodesk推出的AI解決方案,將視頻轉(zhuǎn)換為3D場景的動畫制作工具。

    Wonder Animation是Autodesk旗下的一款創(chuàng)新產(chǎn)品,它利用尖端的視頻到3D場景技術(shù),將任何視頻序列轉(zhuǎn)換成3D動畫場景,加速動畫電影制作流程。這項技術(shù)能夠處理包含多個剪輯和不同鏡頭(廣角、中景、特寫)的影片和編輯序列,然后使用AI在3D空間中重建場景,并匹配每個攝像機與角色和環(huán)境的位置和動作關(guān)系。Wonder Animation的主要優(yōu)點在于它能夠為藝術(shù)家提供完全的創(chuàng)意控制權(quán),與市場上其他依賴自動化輸出的生成性AI工具不同,它賦予藝術(shù)家塑造自己愿景的能力。

  • cofounder:AI生成的應(yīng)用,全棧+生成式UI

    cofounder是一個全棧AI生成的應(yīng)用,它結(jié)合了后臺、數(shù)據(jù)庫和有狀態(tài)的web應(yīng)用。它基于應(yīng)用架構(gòu)的生成式UI,擁有AI引導(dǎo)的草圖設(shè)計和模塊化設(shè)計系統(tǒng)。這個項目還處于早期alpha階段,但已經(jīng)展現(xiàn)出強大的潛力,尤其是在快速原型設(shè)計和開發(fā)方面。它的目標(biāo)是提供一個完整的本地、基于瀏覽器的開發(fā)環(huán)境,支持多種框架,并且通過集成的AI插件提供生成式設(shè)計系統(tǒng)。

  • LaunchGun:AI驅(qū)動的分析平臺,優(yōu)化產(chǎn)品在Product Hunt上的發(fā)布。

    LaunchGun是一個AI驅(qū)動的分析平臺,旨在幫助獨立制作者通過數(shù)據(jù)驅(qū)動的洞察和聚類分析來優(yōu)化他們在Product Hunt上的發(fā)布。該平臺通過聚合和分析Product Hunt上的公共數(shù)據(jù),為用戶在產(chǎn)品發(fā)布領(lǐng)域提供宏觀視角。LaunchGun的主要優(yōu)點包括聚類基礎(chǔ)的產(chǎn)品分析、數(shù)據(jù)可視化、成功率跟蹤、性能指標(biāo)跟蹤和時間序列分析,幫助用戶識別趨勢和最佳發(fā)布時機。產(chǎn)品背景信息顯示,LaunchGun由一群對數(shù)據(jù)和產(chǎn)品發(fā)布充滿熱情的開發(fā)者創(chuàng)建,旨在通過最新的實時數(shù)據(jù)提供深入的分析和見解。

  • MeetingMind:AI會議記錄分析應(yīng)用

    MeetingMind是一個AI驅(qū)動的會議助理,幫助用戶輕松捕捉、分析和執(zhí)行會議洞察。該項目使用Langflow、Next.js和基于Groq的快速轉(zhuǎn)錄服務(wù)來分析會議并生成洞察。產(chǎn)品背景信息顯示,MeetingMind旨在提高會議效率,通過自動化提取會議中的關(guān)鍵信息,如任務(wù)、決策、問題等,減少人工記錄和后續(xù)整理的時間。產(chǎn)品的主要優(yōu)點包括AI轉(zhuǎn)錄、關(guān)鍵信息自動提取和易于使用的界面。目前,該產(chǎn)品在GitHub上開源,用戶可以免費使用。

今日大家都在搜的詞:

熱文

  • 3 天
  • 7天