- 揭秘赫拉的神秘力量,《哈迪斯2》赫拉祝福一覽
- 快速掌握游戲策略,《哈迪斯2》赫爾墨斯祝福一覽
- 探索神秘力量,《哈迪斯2》赫菲斯托祝福一覽
- 游戲攻略搶先看,《西游:平民開荒陣容指南》
- 解析背后的秘密,《百變大偵探》血月潮起兇手答案真相攻略
- 游戲妙招揭秘,《植物大戰(zhàn)僵尸雜交版》冒險模式第15關攻略
- 獲取游戲新皮膚的攻略指南,《陰陽師》緊那羅新皮膚獲取攻略
- 深度解析,《永夜降臨:復蘇》騎士長艾爾技能介紹
- 全新活動上線,《陰陽師》神隱尋真活動介紹
- 游戲角色探索,《永夜降臨:復蘇》妃強度介紹
聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。
轉載自:元機器人
3月10日,元推出首個通用具身基座模型——元啟元大模型(Genie Operator-1),它提出了Vision-Language-Latent-Action (ViLLA) 架構。該架構由VLM(多模態(tài)大模型) + MoE(混合專家)組成。其中,VLM借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作視頻數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數據獲得精細的動作執(zhí)行能力。在運行時,VLM、Latent Planner和Action Expert三者協同工作,實現了利用人類視頻學習,完成小樣本快速泛化,降低了具身智能的門檻,并成功集成到元多款機器人本體,持續(xù)進化,推動了具身智能的新臺階。
2024年底,元推出了AgiBot World,包含超過100萬條軌跡、涵蓋217個任務、涉及五大場景的大規(guī)模高質量真機數據集?;贏giBot World,元正式推出元通用具身基座大模型 Genie Operator-1(GO-1)。
01 GO-1:VLA進化到ViLLA
為了充分利用高質量的AgiBot World數據集以及互聯網大規(guī)模異構視頻數據,增強策略的泛化能力,元提出了 Vision-Language-Latent-Action (ViLLA) 這一創(chuàng)新性架構。GO-1作為首個通用具身基座大模型,基于ViLLA構建。與Vision-Language-Action (VLA) 架構相比,ViLLA 通過預測Latent Action Tokens(隱式動作標記),彌合了圖像-文本輸入與機器人執(zhí)行動作之間的鴻溝。在真實世界的靈巧操作和長時任務方面表現卓越,遠超開源SOTA模型。
ViLLA架構由VLM(多模態(tài)大模型) + MoE(混合專家)組成,其中VLM借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數據獲得精細的動作執(zhí)行能力。在推理過程中,VLM、Latent Planner和Action Expert三者協同工作:
下面詳細闡述MoE中的兩個關鍵組件:Latent Planner和Action Expert。
混合專家一:
Latent Planner(隱式規(guī)劃器)
由于AgiBot World數據集是全球最大的機器人真機示教數據集之一,但高質量帶動作標簽的真機數據量仍然有限,遠少于互聯網規(guī)模的數據集。為此,我們采用Latent Actions(隱式動作)來建模當前幀和歷史幀之間的隱式變化,然后通過Latent Planner預測這些Latent Actions,從而將異構數據源中真實世界的動作知識轉移到通用操作任務中。
混合型專家二:
Action Expert(動作專家)
為了實現高頻率且靈活的操控,我們引入了行動專家,該專家采用擴散模型作為目標函數,用于建模低層動作的連續(xù)分布。
實驗效果
通過創(chuàng)新性的ViLLA架構,我們在五個不同復雜度的任務中測試了GO-1。與現有最優(yōu)模型相比,GO-1的成功率顯著提升,平均成功率提高了32%(從46%提升至78%)。其中,“倒水”、“清理桌面”和“補充飲料”任務表現出色。此外,我們單獨驗證了架構中潛在計劃器的作用,結果表明增加潛在計劃器可提升12%的成功率(從66%提升至78%)。
02 GO-1:具身智能的全面創(chuàng)新
GO-1大模型憑借人類和多種機器人數據,賦予機器人革命性的學習能力,使其能夠泛化應用到各類環(huán)境和物品中,快速適應新任務、學習新技能。同時,它還支持部署到不同機器人本體,高效完成落地,并在實際應用中持續(xù)快速進化。
這一系列特點可以歸納為四個方面:
智元通用具身基座大模型GO-1的發(fā)布,標志著具身智能正在向通用化、開放化和智能化方向加速發(fā)展。
GO-1大模型將加速具身智能的普及,機器人將從依賴特定任務的工具,發(fā)展為具備通用智能的自主體,在商業(yè)、工業(yè)和家庭等多個領域發(fā)揮更大作用,邁向更加通用全能的智能未來。
請牢記,轉發(fā)請注明出處:上海經信委
特別注明,本文經上觀新聞客戶端“上觀號”入駐媒體授權發(fā)布,僅代表入駐媒體觀點,上觀新聞僅為信息發(fā)布平臺。如您認為內容侵害您的權益,請聯系刪除!
裝備屬性雙倍治療神器,《重生之最強輸出》當前五大神器介紹 美烏沙特會談烏克蘭總統抵達沙特,美烏當天在沙特會面,能達成協議嗎? 集中模式快速采集,怪物獵人荒野快速采集方法:高效資源獲取技巧 從失敗到成功,對話:單日面試人數超1.4萬,AI抄襲事件頻發(fā),朱嘯虎連投三輪,AI投資動向如何? 狂暴力量,《街機恐龍》大力士邁斯技能介紹 限定硬核格斗,范馬刃牙血競技場游玩指南:Baki Hanma Blood Arena平臺介紹 杜倫全場24分44秒 火藥味十足,比賽充滿緊張氛圍!杜倫:讓比賽更激烈 轉身機關,雙影奇境中如何觸發(fā)登山遠足任務 2025元宵節(jié)追思,中國駐剛果(布)大使李巖逝世,52歲 特斯拉股價暴跌馬斯克社交平臺被烏克蘭攻擊引發(fā)市場恐慌,特斯拉股價暴跌15%,創(chuàng)下2020年來的最大單日跌幅