- 8年全職寶媽重返職場(chǎng),建議青島這個(gè)經(jīng)驗(yàn)向全國(guó)推廣
- 速度冒險(xiǎn),一起越野游戲官網(wǎng)地址
- 特朗普在白宮外,特朗普在白宮外花8萬(wàn)美元購(gòu)買紅色特斯拉,支持馬斯克
- 戰(zhàn)斗flow生命流與寒霜流,《口袋斗蛐蛐》火焰圣女攻略
- 3月11日主場(chǎng)迎戰(zhàn)四川隊(duì),廣東隊(duì)取消對(duì)手貝茲利注冊(cè),重新注冊(cè)吉倫沃特,導(dǎo)致自己被禁賽無(wú)緣與四川的比賽。
- 電池技術(shù)的選擇之道,寧德時(shí)代為何成為特斯拉的電池供應(yīng)商,而LG電池為何不被采用?
- 幻境旅者暗謎之淵挑戰(zhàn)破界篇,《幻境旅者》暗謎之淵玩法介紹一覽
- 智能集成,OpenAI發(fā)布AI工具包,Agents功能上線
- 拖拽硬幣改善爺爺生活,《就我眼神好》看望爺爺通關(guān)攻略
- 野獸級(jí)大中鋒肯揚(yáng)·馬丁,《美職籃全明星》肯揚(yáng)馬丁玩法介紹
聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
雷遞網(wǎng)樂(lè)天3月11日正式發(fā)布
智元日前推出首個(gè)通用具身基座模型智元啟元大模型Genie Operator-1提出了Vision-Language-Latent-Action (ViLLA)架構(gòu)
該架構(gòu)由VLM多模態(tài)大模型與MoE混合專家組成其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場(chǎng)景感知和語(yǔ)言理解能力MoE中的隱式規(guī)劃器Latent Planner借助大量跨本體和人類操作視頻數(shù)據(jù)獲得通用的動(dòng)作理解能力MoE中的動(dòng)作專家Action Expert借助百萬(wàn)真機(jī)數(shù)據(jù)獲得精細(xì)的動(dòng)作執(zhí)行能力三者協(xié)同工作實(shí)現(xiàn)了利用人類視頻學(xué)習(xí)完成小樣本快速泛化降低了具身智能門檻并部署到智元多款機(jī)器人本體
據(jù)介紹智元2024年底推出AgiBot World包含超過(guò)100萬(wàn)條軌跡涵蓋217個(gè)任務(wù)涉及五大場(chǎng)景的大規(guī)模高質(zhì)量真機(jī)數(shù)據(jù)集基于AgiBot World智元今日正式發(fā)布智元通用具身基座大模型Genie Operator-1 GO-1
GO-1 Vision-Language-Latent-Action進(jìn)化為ViLLA架構(gòu)
為了有效利用高質(zhì)量的AgiBot World數(shù)據(jù)集以及互聯(lián)網(wǎng)大規(guī)模異構(gòu)視頻數(shù)據(jù)增強(qiáng)策略的泛化能力智元提出了Vision-Language-Latent-Action (ViLLA)這一架構(gòu)GO-1作為首個(gè)通用具身基座大模型基于ViLLA構(gòu)建與Vision-Language-Action (VLA)架構(gòu)相比ViLLA通過(guò)預(yù)測(cè)隱式動(dòng)作標(biāo)記彌合了圖像-文本輸入與機(jī)器人執(zhí)行動(dòng)作之間的鴻溝
ViLLA架構(gòu)由VLM多模態(tài)大模型與MoE混合專家組成其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場(chǎng)景感知和語(yǔ)言理解能力MoE中的隱式規(guī)劃器Latent Planner借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動(dòng)作理解能力MoE中的動(dòng)作專家Action Expert借助百萬(wàn)真機(jī)數(shù)據(jù)獲得精細(xì)的動(dòng)作執(zhí)行能力在推理時(shí)VLM Latent Planner和Action Expert三者協(xié)同工作
下面詳細(xì)介紹MoE中的兩個(gè)關(guān)鍵組成部分隱式規(guī)劃器與動(dòng)作專家
混合專家一
隱式規(guī)劃器Latent Planner
智元機(jī)器人采用隱式動(dòng)作模型來(lái)建模當(dāng)前幀和歷史幀之間的隱式變化,通過(guò)隱式規(guī)劃器預(yù)測(cè)這些隱式動(dòng)作,并將其從異構(gòu)數(shù)據(jù)源中的真實(shí)世界動(dòng)作知識(shí)轉(zhuǎn)移到通用操作任務(wù)中。
1. 混合專家二
2. 動(dòng)作專家
3. 為了實(shí)現(xiàn)高頻和靈活的控制能力,我們引入動(dòng)作專家,其采用擴(kuò)散模型作為目標(biāo)函數(shù)來(lái)建模低層動(dòng)作的連續(xù)分布。
4. 實(shí)驗(yàn)效果
5. 通過(guò)創(chuàng)新架構(gòu)ViLLA,我們?cè)谖鍌€(gè)不同復(fù)雜度的任務(wù)中測(cè)試了GO-1模型,與現(xiàn)有最優(yōu)模型相比,GO-1的成功率顯著提升,平均成功率提高了32%(從46%提升至78%)。其中,“倒水”、“清理桌面”和“補(bǔ)充飲料”任務(wù)表現(xiàn)尤為突出。此外,我們還單獨(dú)驗(yàn)證了ViLLA架構(gòu)中隱式規(guī)劃器的作用,發(fā)現(xiàn)增加隱式規(guī)劃器可以將成功率提升12%(從66%提升至78%)。
6. GO-1大模型通過(guò)融合人類與多種機(jī)器人數(shù)據(jù),使機(jī)器人獲得了革命性的學(xué)習(xí)能力,能夠廣泛應(yīng)用于各類環(huán)境和物品中,快速適應(yīng)新任務(wù)并學(xué)習(xí)新技能。同時(shí),它支持部署到不同機(jī)器人本體,高效完成任務(wù),并在實(shí)際應(yīng)用中持續(xù)進(jìn)化。
7. 這一系列的特點(diǎn)可以歸納為以下四個(gè)方面:
8. 智元機(jī)器人表示,GO-1大模型將加速具身智能的普及,機(jī)器人將從依賴特定任務(wù)的工具,發(fā)展為具備通用智能的自主體,在商業(yè)、工業(yè)、家庭等多個(gè)領(lǐng)域發(fā)揮更大作用,邁向更加通用全能的智能未來(lái)。
9. 智元機(jī)器人日前推出自主研發(fā)的大型仿真框架AgiBot Digital World,為機(jī)器人操作提供靈活的仿真數(shù)據(jù)生成方案、預(yù)訓(xùn)練的大規(guī)模仿真數(shù)據(jù)和統(tǒng)一的模型評(píng)測(cè)標(biāo)準(zhǔn),并同步開源海量仿真數(shù)據(jù)。
雷遞是由媒體人雷建平創(chuàng)立的,若轉(zhuǎn)載請(qǐng)注明出處。
金幣獲取的秘密如何避開裝修利用單向門賺取高價(jià)格紀(jì)念品小黑板提醒玩家娃娃機(jī)被禁止出口位置也需優(yōu)化,雙點(diǎn)博物館怎么賺錢-賺錢方法介紹 限定開放世界,Voxile游戲下載地址及平臺(tái)說(shuō)明 疾風(fēng)驟雨 神出鬼沒(méi),《街機(jī)恐龍》杰克·特里克英雄介紹 南方科創(chuàng)板綜合ETF+科創(chuàng)綜指,南方科創(chuàng)綜指聯(lián)接基金獲批,打通場(chǎng)外科創(chuàng)板新渠道或南方科創(chuàng)ETF聯(lián)接基金獲批,為場(chǎng)外科創(chuàng)板投資開辟新路徑(以上兩個(gè)標(biāo)題都保持了原文的核心信息,但進(jìn)行了更簡(jiǎn)潔的表達(dá),同時(shí)調(diào)整了語(yǔ)序,使標(biāo)題更加流暢。) 海盜船冒險(xiǎn),《唱舞星計(jì)劃》海盜船主題活動(dòng)介紹 發(fā)現(xiàn)夏威夷5號(hào)的天然刺身,如龍8外傳所有動(dòng)物獲取方法解析 如影相隨與法厄同之歌驅(qū)動(dòng)盤上線超棒屬性加成等你體驗(yàn),《絕區(qū)零》1.6版本新驅(qū)動(dòng)盤介紹 限定神皮膚,《王者榮耀》八周年返場(chǎng)皮膚名單分享 米德加爾最終黎明,F(xiàn)F7米德加爾彩蛋全位置分享 三國(guó)隱秘諸葛亮智謀解析,《三國(guó)問(wèn)鼎山河》諸葛亮人物介紹