- 星途星紀元ES增程版上市外觀內(nèi)飾全解析,星途星紀元增程版上市,售價15.28萬起
- 在桃花塢觸發(fā)對話探索配對道具配對箱子完成任務,《逆水寒手游》愛糖小童奇遇攻略
- 任務屋頂?shù)拿孛? 挑戰(zhàn)梯子背后的真相,雙影奇境中登山遠足任務觸發(fā)方法
- 三重光武器強化與隔音的搭配技巧,怪物獵人荒野大eur操蟲棍配裝攻略分享
- 馬刺隊VS達拉斯獨行俠文班亞馬傷退歐文報銷馬刺遭遇重挫,馬刺老將透露球隊持續(xù)低迷原因
- 記憶的挑戰(zhàn)失憶的秘密,Memory Lost游戲下載網(wǎng)址:如何獲取
- 活力四射,小S女兒重返娛樂圈,在化妝間模仿大S動作
- 沙魚暗黑傳說,雙影奇境沙丘彩蛋位置在哪?彩蛋位置分享
- 兩個技能讓法寶所有者獲得3點全戰(zhàn)斗資質(zhì)這種效果會持續(xù)25秒,《鬼谷八荒》姜菱歌技能介紹
- 兒童健康起跑線多重打擊,別讓孩子太瘦小!骨齡提前、性早熟、代謝紊亂,肥胖多方面影響孩子身心健康!
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
自 Sora 誕生以來,視頻內(nèi)容創(chuàng)作已進入快車道,AI 技術(shù)賦能內(nèi)容生產(chǎn)的時代已經(jīng)到來。
今年 4 月,生數(shù)科技聯(lián)合清華大學推出首個基于 U-ViT 的國產(chǎn)全自研視頻大模型 Vidu,打破了國外技術(shù)封鎖,支持一鍵生成 16 秒高清視頻,展現(xiàn)了我國科技企業(yè)的創(chuàng)新能力。自 7 月上線以來,Vidu 已服務數(shù)千萬用戶,極大促進了視頻內(nèi)容的智能創(chuàng)作。近期,騰訊混元、阿里通義萬相等開源視頻生成模型相繼亮相,可生成 5-6 秒視頻,降低了視頻創(chuàng)作門檻。
盡管如此,目前國內(nèi)外視頻社區(qū)仍有用戶反映現(xiàn)有開源模型在生成時長受限于 5-6 秒的短視頻,難以滿足需求。
今天,Vidu 團隊帶來了 RIFLEx 解決方案——一個簡潔優(yōu)雅的解決方案。新方案只需一行代碼,無需額外訓練即可突破視頻生成模型時長限制,打破了「短視頻魔咒」。目前該項目已經(jīng)開源,體現(xiàn)了團隊對開源社區(qū)的積極回饋和貢獻。
RIFLEx 適用于基于 RoPE 的各類 Video Diffusion Transformer,例如 CogvideoX、混元(參考之前推送)和通義萬相(參考之前推送)。
下列開源模型無需任何訓練即可將視頻時長外推兩倍至10秒:
- 示例 1:prompt: 一只棕白相間的動畫豪豬好奇地審視著緞帶裝飾的綠色盒子,靈動的眼神與細膩的3D動畫風格營造出溫馨而精致的視覺體驗。
- 示例 2:prompt: 荒涼空地上的簡易營地散布著無人機與物資,軍人與平民共處,一名男子絕望抱頭,女子憂慮注視,沉重氛圍暗示剛經(jīng)歷重大事件,鏡頭穩(wěn)定細膩,突出緊張與不安感。
- 示例 3:sora的經(jīng)典長毛猛犸象prompt
- 示例 4:在短視頻微調(diào)幾千步可進一步提升性能。
在馬車內(nèi),一位留著胡須、穿著格子襯衫的guys專注地端詳一枚硬幣。他與一名女子進行交談,鏡頭切換展現(xiàn)了歷史劇風格與戲劇氛圍。
動畫中的兔子和老鼠穿著探險裝備,正面臨著生死時刻。它們急速墜入一個黑暗且未知的空間,隨后在寧靜的水下世界中漂浮并游動。緊張而堅定的表情通過中景與特寫鏡頭展現(xiàn),高質(zhì)量的3D動畫風格增強了影片的沉浸感。
留著胡須的guys穿著一件格子襯衫,坐在吉他前深情地演唱。他的室內(nèi)環(huán)境簡潔,背景是一面純灰色墻壁,左側(cè)放著一個吉他音箱和麥克風架,右側(cè)則擺放著一疊書籍。
此外,RIFLEx不僅支持基于時間維度的外推功能,還可以擴展至空間維度,比如通過局部畫面超分辨率重建、修復缺失區(qū)域或擴展視頻邊界內(nèi)容。此外,RIFLEx還支持時空外推,例如生成未來高分辨率視頻序列或動態(tài)擴展視頻的時空內(nèi)容,兼顧時間連續(xù)性與空間一致性。
圖片分為兩部分,左側(cè)為訓練尺寸,右側(cè)為外推結(jié)果
訓練尺寸:480x720x49
外推結(jié)果:960x1440x97
這項研究成果一經(jīng)發(fā)布,立刻引起了廣泛關(guān)注。
著名博主 Ak 是第一人轉(zhuǎn)發(fā),海外科技公司與博主對其表示高度贊賞,稱其為「視頻擴散模型領(lǐng)域的突破性創(chuàng)新」。
Diffusers核心貢獻者 sayakpaul 和 a-r-r-o-w 也收藏了代碼,并在評論區(qū)表示贊賞。
目前,RIFLEx 已被集成到多個知名視頻生成倉庫中。
本研究揭示了 RIFLEx:通過簡化復雜性,直接觸及技術(shù)本質(zhì)。
在大型語言模型中,外推長度問題已有研究,但在視頻生成中,這些方法常遇到瓶頸,導致重復或拖動效果。外推導致視頻重復,紅色框標識開始與視頻開頭重復。
同時,結(jié)合外推與內(nèi)插編碼(Yarn)也會導致慢動作效果。
為解決這一難題,Vidu 團隊深入分析了 RoPE 的頻率成分特性:
1. 時間依賴距離:不同頻率成分僅能捕捉特定周期長度的幀間依賴關(guān)系。當幀數(shù)超過周期長度時,周期特性導致位置編碼重復,從而使視頻內(nèi)容出現(xiàn)重復。
2. 運動速度:不同頻率成分捕捉不同的運動速度,由該頻率位置編碼變化率決定。高頻成分捕捉快速運動,低頻成分捕捉慢速運動。
當所有頻率成分結(jié)合時,存在一個“內(nèi)在頻率”,即周期距離首次觀測重復幀最近的成分,它決定了視頻外推時的重復模式。
基于此,團隊提出 RIFLEx:通過降低內(nèi)在頻率,確保外推后的視頻長度在一個周期內(nèi),從而避免內(nèi)容重復。該方法僅需在經(jīng)典 RoPE 編碼中添加一行代碼即可實現(xiàn)。
這一創(chuàng)新思路為視頻生成技術(shù)的發(fā)展提供了新方向,具有廣闊的應用前景。
團隊介紹
本團隊是世界頂尖的人工智能研究力量之一,專注于推動擴散模型技術(shù)的發(fā)展。核心成員趙敏,現(xiàn)為清華大學TSAIL實驗室研究員,其研究方向聚焦于基于擴散模型的視覺內(nèi)容生成技術(shù)。作為生數(shù)科技的重要成員,趙敏在TSAIL團隊中承擔著核心職責,曾以第一作者身份在NeurIPS、ICLR、ECCV等國際頂級會議和期刊發(fā)表多篇高水平論文,并受邀入選2024年清華大學"水木學者"計劃。她的個人主頁可通過鏈接https://gracezhao1997.github.io/訪問。
清華大學TSAIL團隊長期專注于擴散模型領(lǐng)域的創(chuàng)新研究,取得了一系列重要成果。包括開發(fā)出Analytic-DPM(該成果曾榮獲ICLR 2022 "杰出論文獎")、U-ViT、DPM-solver等創(chuàng)新性算法,并研制出一個與Sora相媲美的視頻生成大模型Vidu。該團隊的其他成員均為TSAIL實驗室的研究生,其中何冠德和朱泓舟參與了Vidu的研發(fā)工作,陳亦逍為計算機系在讀本科生,李崇軒則已成為人民大學高瓴人工智能學院的副教授。他們的研究為擴散模型技術(shù)的應用提供了堅實的技術(shù)支撐。
(注:視頻鏈接保持不變:https://mp.weixin.qq.com/s/q5Z9v2SekkD8Dv4w5E2RAA)
為什么50歲后的工作壽命只剩6.87年,50歲后還能健康工作多久?研究給出答案 千兆網(wǎng)絡突破,重慶信息通信基礎設施建設再創(chuàng)輝煌,千兆網(wǎng)絡發(fā)展增速全國第七 浮光春色·全新上線,《萬國覺醒》浮光春色版本介紹 長沙機場改擴建工程三跑道水泥混凝土面層首次澆筑完成施工進展如火如荼,長沙機場改擴建工程有新進展 領(lǐng)克900智享豪華配置,領(lǐng)克900或曝光售價及配置!4月上市,已到店說明:1. 去掉"疑似",使表述更簡潔2. "配置+價格曝光"改為"售價及配置",更符合行業(yè)用語3. "銷售:車到店"簡化為"已到店"4. "4月上市"保持不變,時間信息不變5. 整體標題更簡潔有力,同時保持了原意6. 通過調(diào)整語序使標題更流暢7. 使用"或"增加不確定性,符合新聞標題風格8. 保持了專業(yè)性和吸引力 限定SSR回歸聯(lián)動福利,《陰陽師》初音未來聯(lián)名活動全面解讀 掌握太刀氣刃斬技巧,怪物獵人太刀快速打出氣刃斬的方法介紹 杜特爾特突然造訪香港,杜特爾特否認國際刑事法院指控,若被捕入獄,我也無門可走 秘密金秀賢與年輕女孩的示好,金秀賢寫給金賽綸的信曝光!深情告白女方,親臉合影,情意綿綿。 對話兩位拓荒者在量子物理與人生哲學的領(lǐng)域展開交流,張朝陽對話俞敏洪:探討互聯(lián)網(wǎng)、心理學與人生價值