- 新手入門(mén)必看,《問(wèn)劍長(zhǎng)生》新手職業(yè)流派介紹
- 攻略起點(diǎn)引導(dǎo),《絕區(qū)零》1.4跨海之繭成就達(dá)成攻略
- 美味挑戰(zhàn)解鎖,《可口的比薩》餐車(chē)第13關(guān)攻略
- 最新更新速覽,《爐石傳說(shuō)》31.2.2機(jī)魚(yú)圣者改動(dòng)匯總
- 《環(huán)行旅舍》資源獲取關(guān)卡介紹
- 前期裝備推薦,《盜神三國(guó)》前期好用過(guò)渡武器推薦
- 探索角色奧秘,《超時(shí)空跑跑》夢(mèng)幻玩法介紹
- 游戲策略指南,《原始征途》召喚師屬性加點(diǎn)
- 探索新奇視角,《絕區(qū)零》1.4厄匹斯港彩蛋成就攻略
- 角色培養(yǎng)指南,《環(huán)行旅舍》人權(quán)卡推薦選擇
聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
這一項(xiàng)研究首次將DeepSeek的同款RLVR算法應(yīng)用于全模態(tài)大語(yǔ)言模型,包括處理視頻內(nèi)容的能力。
在完成開(kāi)源項(xiàng)目的開(kāi)發(fā)后,薄列峰團(tuán)隊(duì)又推出了R1-Omni版本,該版本進(jìn)一步完善了全模態(tài)LLM的功能。
在杭州的另一項(xiàng)目中,團(tuán)隊(duì)提出了一個(gè)被稱為「開(kāi)源雙feng」的創(chuàng)新方案,目前尚未對(duì)外公布具體內(nèi)容。
團(tuán)隊(duì)近期完成了哪些重要工作?
DeepSeek-R1項(xiàng)目的成功使得RLVR算法得到了廣泛應(yīng)用,此前已有研究團(tuán)隊(duì)將RLVR應(yīng)用于圖像-文本雙模態(tài)的大語(yǔ)言模型,取得了顯著的性能提升,特別是在幾何推理和視覺(jué)計(jì)數(shù)等任務(wù)方面表現(xiàn)尤為出色。
然而,目前的研究還未能將RLVR算法與包含音頻、動(dòng)態(tài)視覺(jué)等多種模態(tài)的全模態(tài)大語(yǔ)言模型相結(jié)合。
薄列峰團(tuán)隊(duì)首次實(shí)現(xiàn)了RLVR算法與全模態(tài)LLM的結(jié)合,重點(diǎn)應(yīng)用于視覺(jué)和音頻模態(tài)均發(fā)揮關(guān)鍵作用的情感識(shí)別任務(wù)。
在經(jīng)過(guò)一系列實(shí)驗(yàn)后,團(tuán)隊(duì)發(fā)現(xiàn)了模型在三個(gè)核心指標(biāo)上的顯著提升:
RLVR算法的引入不僅顯著提升了模型在訓(xùn)練集上的性能表現(xiàn),而且在測(cè)試集上的魯棒性表現(xiàn)也得到了明顯增強(qiáng)。
這一改進(jìn)更關(guān)鍵的是,使得模型在情感識(shí)別過(guò)程中各模態(tài)的交互作用分析變得更加清晰和直觀。
R1-Omni在X上的熱度也得到了不少網(wǎng)友的關(guān)注:
可解釋性機(jī)制+多模態(tài)學(xué)習(xí)被認(rèn)為是下一代AI研究的重點(diǎn)方向。
本文將重點(diǎn)介紹R1-Omni的相關(guān)技術(shù)。
R1-Omni長(zhǎng)啥樣?
論文中首先介紹了DeepSeek同款的RLVR和GRPO算法。
RLVR是一種創(chuàng)新的訓(xùn)練范式,其核心思想是通過(guò)驗(yàn)證函數(shù)直接評(píng)估輸出,無(wú)需依賴傳統(tǒng)的人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)中基于單獨(dú)獎(jiǎng)勵(lì)模型的訓(xùn)練過(guò)程。
具體來(lái)說(shuō),給定輸入問(wèn)題q,策略模型πθ生成響應(yīng)o,隨后應(yīng)用可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)R(q,o)進(jìn)行評(píng)估,最終的目標(biāo)是最大化驗(yàn)證獎(jiǎng)勵(lì)與基于KL散度的正則化項(xiàng)之間的差值。
通過(guò)這種方式,RLVR在簡(jiǎn)化了獎(jiǎng)勵(lì)機(jī)制的同時(shí),確保了其與任務(wù)內(nèi)在正確性標(biāo)準(zhǔn)保持一致。
GRPO則是一種全新的強(qiáng)化學(xué)習(xí)方法,其與傳統(tǒng)方法如PPO存在顯著差異,PPO依賴評(píng)論家模型對(duì)候選策略進(jìn)行性能評(píng)估,而GRPO直接比較生成的響應(yīng)組,避免了額外的評(píng)論家模型使用,從而簡(jiǎn)化了整個(gè)訓(xùn)練流程。
通過(guò)引入歸一化評(píng)分機(jī)制,GRPO進(jìn)一步增強(qiáng)了模型在區(qū)分高質(zhì)量和低質(zhì)量輸出方面的能力。
在DeepSeek-R1的框架指導(dǎo)下,研究團(tuán)隊(duì)將GRPO與RLVR進(jìn)行了融合創(chuàng)新。
在構(gòu)建R1-Omni模型時(shí),團(tuán)隊(duì)采用了基于DeepSeek-R1訓(xùn)練方法啟發(fā)的冷啟動(dòng)策略。
該研究在包含232個(gè)可解釋多模態(tài)(視覺(jué)和音頻)情感推理數(shù)據(jù)集(EMER)樣本和348個(gè)手動(dòng)標(biāo)注的HumanOmni數(shù)據(jù)集樣本的組合數(shù)據(jù)集上,對(duì)HumanOmni-0.5B進(jìn)行了微調(diào),使其具備初步的情感推理能力,并能夠解釋視覺(jué)和音頻線索如何影響情感識(shí)別。
通過(guò)RLVR訓(xùn)練方法優(yōu)化模型,獎(jiǎng)勵(lì)函數(shù)由兩部分組成:準(zhǔn)確率獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。準(zhǔn)確率獎(jiǎng)勵(lì)評(píng)估了模型預(yù)測(cè)情感與真實(shí)情感的一致性,而格式獎(jiǎng)勵(lì)確保了模型輸出符合指定的HTML標(biāo)簽格式。
模型輸出預(yù)期包含兩部分:推理過(guò)程,封裝在""標(biāo)簽內(nèi),用于解釋模型如何整合視覺(jué)和音頻線索得出預(yù)測(cè);情感標(biāo)簽,封裝在""標(biāo)簽內(nèi),表示最終預(yù)測(cè)的情感。
推理/理解/泛化三方面提升
在實(shí)驗(yàn)評(píng)估中,研究者將R1-Omni與三個(gè)基線模型進(jìn)行了比較,包括原始的HumanOmni-0.5B、在EMER數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)的模型EMER-SFT,以及直接在MAFW和DFEW訓(xùn)練集上基于HumanOmni-0.5B進(jìn)行監(jiān)督微調(diào)的模型MAFW-DFEW-SFT。
評(píng)估指標(biāo)包括無(wú)加權(quán)平均召回率(UAR)和加權(quán)平均召回率(WAR),這些指標(biāo)衡量了模型在不同情感類(lèi)別中準(zhǔn)確分類(lèi)情感的能力。
在實(shí)驗(yàn)中,所有評(píng)估均在開(kāi)放詞匯情感測(cè)試(OV-emotion)協(xié)議下進(jìn)行。在這種設(shè)置下,模型無(wú)需預(yù)定義情感類(lèi)別,而是直接從輸入數(shù)據(jù)中生成情感標(biāo)簽,這增加了評(píng)估的挑戰(zhàn)性和實(shí)際應(yīng)用價(jià)值。
實(shí)驗(yàn)結(jié)果顯示,R1-Omni在三個(gè)關(guān)鍵方面優(yōu)于其他三個(gè)對(duì)比模型:推理能力顯著增強(qiáng),理解能力顯著提高,泛化能力更強(qiáng)。
研究者展示了多個(gè)可視化示例,比較了R1-Omni與其他三個(gè)模型的輸出,結(jié)果顯示R1-Omni提供了更為連貫、準(zhǔn)確且可解釋的推理過(guò)程。
相比之下,原始HumanOmni-0.5B和MAFW-DFEW-SFT模型在推理能力方面表現(xiàn)有限,而EMER-SFT雖然具備一定推理能力,但其推理過(guò)程連貫性較差且容易產(chǎn)生幻覺(jué)。
基于MAFW和DFEW數(shù)據(jù)集,R1-Omni在UAR和WAR指標(biāo)上表現(xiàn)更優(yōu),顯著優(yōu)于其他模型。
例如,在DFEW數(shù)據(jù)集上,R1-Omni取得了65.83%的UAR和56.27%的WAR,明顯優(yōu)于MAFW-DFEW-SFT的60.23%UAR和44.39%WAR。
作為分布外測(cè)試集,研究者在RAVDESS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。由于其數(shù)據(jù)分布顯著不同于MAFW和DFEW的電影片段集,RAVDESS成為評(píng)估模型泛化能力的理想基準(zhǔn)。
由于其數(shù)據(jù)分布顯著不同于MAFW和DFEW的電影片段集,RAVDESS成為評(píng)估模型泛化能力的理想基準(zhǔn)。
相較于MAFW-DFEW-SFT模型,R1-Omni在RAVDESS數(shù)據(jù)集上取得了顯著提升,實(shí)現(xiàn)了43.00%的UAR和44.69%的WAR。
目前,基礎(chǔ)模型HumanOmni-0.5B、冷啟動(dòng)模型EMER-SFT,以及MAFW-DFEW-SFT和最終模型R1-Omni均已開(kāi)源。
[1]https://arxiv.org/abs/2503.05379[2]https://github.com/HumanMLLM/R1-Omni
日產(chǎn)管理層變動(dòng)減產(chǎn)計(jì)劃與市場(chǎng)策略升級(jí),日產(chǎn)汽車(chē)CEO內(nèi)田誠(chéng)3月底即將卸任,接任首席規(guī)劃官 從分手到重組,"鹿晗關(guān)曉彤疑似領(lǐng)證,鄧超回應(yīng)最新近況" Mosquito Bite,《驅(qū)入虛空》綠野蟲(chóng)鳴桃宮諾諾技能介紹 古代穿搭怎么過(guò)文字找茬大師攻略來(lái)了,《文字找茬大師》古代穿搭通關(guān)攻略 2023歐冠對(duì)決,巴黎橫掃利物浦!連續(xù)兩年闖入歐冠八強(qiáng),登貝萊梅開(kāi)二度,努涅斯失誤 生化威脅,《街機(jī)恐龍》史詩(shī)級(jí)武器-粒子破碎者介紹 雙酚A小票引發(fā)關(guān)注,患癌博主提醒熱敏紙或致癌!真相是…… 時(shí)光的印記,霍耀良導(dǎo)演去世年僅68歲,王晶悼念好友 胡塞武裝與以色列將展開(kāi)新一輪軍事打擊,四天內(nèi)胡塞武裝宣布恢復(fù)對(duì)船只的打擊【改寫(xiě)說(shuō)明】1. "四天期限已到"改為"四天內(nèi)",更簡(jiǎn)潔明了2. "宣布恢復(fù)打擊"改為"宣布恢復(fù)對(duì)",更符合口語(yǔ)表達(dá)3. "以色列船只"簡(jiǎn)化為"船只",避免重復(fù)4. 整體保持了原文的核心信息,但更簡(jiǎn)練5. 使用了更常見(jiàn)的表達(dá)方式,使標(biāo)題更易讀6. 保留了所有關(guān)鍵信息,沒(méi)有遺漏重要內(nèi)容 強(qiáng)化攻擊模式,怪物獵人:荒野雙劍雙劍操作指南