完结小说排行榜,将夜猫腻小说

聲明:本文來(lái)自于（ID:ykqsd.com）授權(quán)轉(zhuǎn)載發(fā)布。

這一項(xiàng)研究首次將DeepSeek的同款RLVR算法應(yīng)用于全模態(tài)大語(yǔ)言模型，包括處理視頻內(nèi)容的能力。

在完成開(kāi)源項(xiàng)目的開(kāi)發(fā)后，薄列峰團(tuán)隊(duì)又推出了R1-Omni版本，該版本進(jìn)一步完善了全模態(tài)LLM的功能。

在杭州的另一項(xiàng)目中，團(tuán)隊(duì)提出了一個(gè)被稱為「開(kāi)源雙feng」的創(chuàng)新方案，目前尚未對(duì)外公布具體內(nèi)容。

團(tuán)隊(duì)近期完成了哪些重要工作？

DeepSeek-R1項(xiàng)目的成功使得RLVR算法得到了廣泛應(yīng)用，此前已有研究團(tuán)隊(duì)將RLVR應(yīng)用于圖像-文本雙模態(tài)的大語(yǔ)言模型，取得了顯著的性能提升，特別是在幾何推理和視覺(jué)計(jì)數(shù)等任務(wù)方面表現(xiàn)尤為出色。

然而，目前的研究還未能將RLVR算法與包含音頻、動(dòng)態(tài)視覺(jué)等多種模態(tài)的全模態(tài)大語(yǔ)言模型相結(jié)合。

薄列峰團(tuán)隊(duì)首次實(shí)現(xiàn)了RLVR算法與全模態(tài)LLM的結(jié)合，重點(diǎn)應(yīng)用于視覺(jué)和音頻模態(tài)均發(fā)揮關(guān)鍵作用的情感識(shí)別任務(wù)。

在經(jīng)過(guò)一系列實(shí)驗(yàn)后，團(tuán)隊(duì)發(fā)現(xiàn)了模型在三個(gè)核心指標(biāo)上的顯著提升：

RLVR算法的引入不僅顯著提升了模型在訓(xùn)練集上的性能表現(xiàn)，而且在測(cè)試集上的魯棒性表現(xiàn)也得到了明顯增強(qiáng)。

這一改進(jìn)更關(guān)鍵的是，使得模型在情感識(shí)別過(guò)程中各模態(tài)的交互作用分析變得更加清晰和直觀。

R1-Omni在X上的熱度也得到了不少網(wǎng)友的關(guān)注：

可解釋性機(jī)制+多模態(tài)學(xué)習(xí)被認(rèn)為是下一代AI研究的重點(diǎn)方向。

本文將重點(diǎn)介紹R1-Omni的相關(guān)技術(shù)。

R1-Omni長(zhǎng)啥樣？

論文中首先介紹了DeepSeek同款的RLVR和GRPO算法。

RLVR是一種創(chuàng)新的訓(xùn)練范式，其核心思想是通過(guò)驗(yàn)證函數(shù)直接評(píng)估輸出，無(wú)需依賴傳統(tǒng)的人類(lèi)反饋強(qiáng)化學(xué)習(xí)（RLHF）中基于單獨(dú)獎(jiǎng)勵(lì)模型的訓(xùn)練過(guò)程。

具體來(lái)說(shuō)，給定輸入問(wèn)題q，策略模型πθ生成響應(yīng)o，隨后應(yīng)用可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)R(q,o)進(jìn)行評(píng)估，最終的目標(biāo)是最大化驗(yàn)證獎(jiǎng)勵(lì)與基于KL散度的正則化項(xiàng)之間的差值。

通過(guò)這種方式，RLVR在簡(jiǎn)化了獎(jiǎng)勵(lì)機(jī)制的同時(shí)，確保了其與任務(wù)內(nèi)在正確性標(biāo)準(zhǔn)保持一致。

GRPO則是一種全新的強(qiáng)化學(xué)習(xí)方法，其與傳統(tǒng)方法如PPO存在顯著差異，PPO依賴評(píng)論家模型對(duì)候選策略進(jìn)行性能評(píng)估，而GRPO直接比較生成的響應(yīng)組，避免了額外的評(píng)論家模型使用，從而簡(jiǎn)化了整個(gè)訓(xùn)練流程。

通過(guò)引入歸一化評(píng)分機(jī)制，GRPO進(jìn)一步增強(qiáng)了模型在區(qū)分高質(zhì)量和低質(zhì)量輸出方面的能力。

在DeepSeek-R1的框架指導(dǎo)下，研究團(tuán)隊(duì)將GRPO與RLVR進(jìn)行了融合創(chuàng)新。

在構(gòu)建R1-Omni模型時(shí)，團(tuán)隊(duì)采用了基于DeepSeek-R1訓(xùn)練方法啟發(fā)的冷啟動(dòng)策略。

該研究在包含232個(gè)可解釋多模態(tài)（視覺(jué)和音頻）情感推理數(shù)據(jù)集（EMER）樣本和348個(gè)手動(dòng)標(biāo)注的HumanOmni數(shù)據(jù)集樣本的組合數(shù)據(jù)集上，對(duì)HumanOmni-0.5B進(jìn)行了微調(diào)，使其具備初步的情感推理能力，并能夠解釋視覺(jué)和音頻線索如何影響情感識(shí)別。

通過(guò)RLVR訓(xùn)練方法優(yōu)化模型，獎(jiǎng)勵(lì)函數(shù)由兩部分組成：準(zhǔn)確率獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。準(zhǔn)確率獎(jiǎng)勵(lì)評(píng)估了模型預(yù)測(cè)情感與真實(shí)情感的一致性，而格式獎(jiǎng)勵(lì)確保了模型輸出符合指定的HTML標(biāo)簽格式。

模型輸出預(yù)期包含兩部分：推理過(guò)程，封裝在""標(biāo)簽內(nèi)，用于解釋模型如何整合視覺(jué)和音頻線索得出預(yù)測(cè)；情感標(biāo)簽，封裝在""標(biāo)簽內(nèi)，表示最終預(yù)測(cè)的情感。

推理/理解/泛化三方面提升

在實(shí)驗(yàn)評(píng)估中，研究者將R1-Omni與三個(gè)基線模型進(jìn)行了比較，包括原始的HumanOmni-0.5B、在EMER數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)的模型EMER-SFT，以及直接在MAFW和DFEW訓(xùn)練集上基于HumanOmni-0.5B進(jìn)行監(jiān)督微調(diào)的模型MAFW-DFEW-SFT。

評(píng)估指標(biāo)包括無(wú)加權(quán)平均召回率（UAR）和加權(quán)平均召回率（WAR），這些指標(biāo)衡量了模型在不同情感類(lèi)別中準(zhǔn)確分類(lèi)情感的能力。

在實(shí)驗(yàn)中，所有評(píng)估均在開(kāi)放詞匯情感測(cè)試（OV-emotion）協(xié)議下進(jìn)行。在這種設(shè)置下，模型無(wú)需預(yù)定義情感類(lèi)別，而是直接從輸入數(shù)據(jù)中生成情感標(biāo)簽，這增加了評(píng)估的挑戰(zhàn)性和實(shí)際應(yīng)用價(jià)值。

實(shí)驗(yàn)結(jié)果顯示，R1-Omni在三個(gè)關(guān)鍵方面優(yōu)于其他三個(gè)對(duì)比模型：推理能力顯著增強(qiáng)，理解能力顯著提高，泛化能力更強(qiáng)。

研究者展示了多個(gè)可視化示例，比較了R1-Omni與其他三個(gè)模型的輸出，結(jié)果顯示R1-Omni提供了更為連貫、準(zhǔn)確且可解釋的推理過(guò)程。

相比之下，原始HumanOmni-0.5B和MAFW-DFEW-SFT模型在推理能力方面表現(xiàn)有限，而EMER-SFT雖然具備一定推理能力，但其推理過(guò)程連貫性較差且容易產(chǎn)生幻覺(jué)。

基于MAFW和DFEW數(shù)據(jù)集，R1-Omni在UAR和WAR指標(biāo)上表現(xiàn)更優(yōu)，顯著優(yōu)于其他模型。

例如，在DFEW數(shù)據(jù)集上，R1-Omni取得了65.83%的UAR和56.27%的WAR，明顯優(yōu)于MAFW-DFEW-SFT的60.23%UAR和44.39%WAR。

作為分布外測(cè)試集，研究者在RAVDESS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。由于其數(shù)據(jù)分布顯著不同于MAFW和DFEW的電影片段集，RAVDESS成為評(píng)估模型泛化能力的理想基準(zhǔn)。

由于其數(shù)據(jù)分布顯著不同于MAFW和DFEW的電影片段集，RAVDESS成為評(píng)估模型泛化能力的理想基準(zhǔn)。

相較于MAFW-DFEW-SFT模型，R1-Omni在RAVDESS數(shù)據(jù)集上取得了顯著提升，實(shí)現(xiàn)了43.00%的UAR和44.69%的WAR。

目前，基礎(chǔ)模型HumanOmni-0.5B、冷啟動(dòng)模型EMER-SFT，以及MAFW-DFEW-SFT和最終模型R1-Omni均已開(kāi)源。

[1]https://arxiv.org/abs/2503.05379[2]https://github.com/HumanMLLM/R1-Omni

日產(chǎn)管理層變動(dòng)減產(chǎn)計(jì)劃與市場(chǎng)策略升級(jí)，日產(chǎn)汽車(chē)CEO內(nèi)田誠(chéng)3月底即將卸任，接任首席規(guī)劃官從分手到重組，"鹿晗關(guān)曉彤疑似領(lǐng)證，鄧超回應(yīng)最新近況" Mosquito Bite，《驅(qū)入虛空》綠野蟲(chóng)鳴桃宮諾諾技能介紹古代穿搭怎么過(guò)文字找茬大師攻略來(lái)了，《文字找茬大師》古代穿搭通關(guān)攻略 2023歐冠對(duì)決，巴黎橫掃利物浦！連續(xù)兩年闖入歐冠八強(qiáng)，登貝萊梅開(kāi)二度，努涅斯失誤生化威脅，《街機(jī)恐龍》史詩(shī)級(jí)武器-粒子破碎者介紹雙酚A小票引發(fā)關(guān)注，患癌博主提醒熱敏紙或致癌！真相是…… 時(shí)光的印記，霍耀良導(dǎo)演去世年僅68歲，王晶悼念好友胡塞武裝與以色列將展開(kāi)新一輪軍事打擊，四天內(nèi)胡塞武裝宣布恢復(fù)對(duì)船只的打擊【改寫(xiě)說(shuō)明】1. "四天期限已到"改為"四天內(nèi)"，更簡(jiǎn)潔明了2. "宣布恢復(fù)打擊"改為"宣布恢復(fù)對(duì)"，更符合口語(yǔ)表達(dá)3. "以色列船只"簡(jiǎn)化為"船只"，避免重復(fù)4. 整體保持了原文的核心信息，但更簡(jiǎn)練5. 使用了更常見(jiàn)的表達(dá)方式，使標(biāo)題更易讀6. 保留了所有關(guān)鍵信息，沒(méi)有遺漏重要內(nèi)容強(qiáng)化攻擊模式，怪物獵人：荒野雙劍雙劍操作指南

最猛黑人xxxⅹ黑人猛交_影音先锋在线视频_黄色带三级九九九_亚日韩精品国产系列免费观看_一区与二区精品在线_亚洲黄色毛片视频_午夜伦情电午夜伦情电影8090_亚洲三级毛片_三级欧美综合精品_国产黄色片子在线观看

首頁(yè)

IT業(yè)界

熱點(diǎn)視頻

站長(zhǎng)資訊

好物榜

更多分類(lèi)

更多主題

DeepSeek-R1RLVR算法在全模態(tài)大語(yǔ)言模型中的創(chuàng)新進(jìn)展，阿里開(kāi)源R1-Omni首次結(jié)合DeepSeek同款RLVR實(shí)現(xiàn)全模態(tài)情感識(shí)別

R1-Omni長(zhǎng)啥樣？

推理/理解/泛化三方面提升

瀚森

游戲特色

游戲亮點(diǎn)

游戲玩法

評(píng)測(cè)