- 全新活動(dòng)搶先看,《明日方舟》更新活動(dòng)內(nèi)容發(fā)布
- 極限挑戰(zhàn)攻略指南,《黃金四目》極4-4打法攻略
- 游戲攻略指南,《星痕共鳴》點(diǎn)亮旅程介紹
- 《最終幻想14:水晶世界》不說(shuō)話的蜂鳥(niǎo)獲得方法
- 策略揭秘,《超逼真的攻城模擬器》銳不可當(dāng)攻略一覽
- 深入角色探索,《明日方舟》諾威爾干員技能介紹
- 獲取必備游戲道具的攻略指南,《地下城與勇士:起源》維納斯融合石獲取攻略
- 游戲攻略指南,《超逼真的攻城模擬器》崖邊突襲攻略一覽
- 玩家必知指南,《修真江湖2》宗門(mén)切換方法
- 全新游戲攻略揭秘,《五芒星戰(zhàn)記》陣容搭配推薦
聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
機(jī)器之心發(fā)布
機(jī)器之心編輯部
在AIGC技術(shù)持續(xù)突破視頻生成邊界的同時(shí),音效制作仍然是制約行業(yè)發(fā)展的重要瓶頸。字節(jié)跳動(dòng)豆包大模型語(yǔ)音團(tuán)隊(duì)近期提出的SeedFoley模型,通過(guò)端到端的架構(gòu)實(shí)現(xiàn)了視頻音效的智能生成,為AI視頻創(chuàng)作注入了「有聲時(shí)代」的元素。該功能已正式接入即夢(mèng)平臺(tái),用戶在生成視頻后,選擇「AI 音效」功能,即可獲得3套專業(yè)級(jí)音效方案。
App端
Web端
效果展示
立即觀看生成的音效效果展示,這里展示了SeedFoley模型生成的視頻音效實(shí)例。
視頻鏈接:https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg
技術(shù)方案
SeedFoley是一種基于端到端的視頻音效生成架構(gòu),通過(guò)融合時(shí)空視頻特征與擴(kuò)散生成模型,實(shí)現(xiàn)了音效與視頻的高度同步。具體來(lái)說(shuō),該模型首先以固定幀率對(duì)視頻序列進(jìn)行幀提取,然后通過(guò)視頻編碼器提取視頻的表征信息,將視頻特征投射到改進(jìn)的條件空間中,并在此框架下構(gòu)建音效生成路徑。
在訓(xùn)練階段,系統(tǒng)收集與語(yǔ)音和音樂(lè)相關(guān)的標(biāo)簽,并以多條件形式輸入,從而實(shí)現(xiàn)聲學(xué)特征與非聲學(xué)特征的解耦。該系統(tǒng)采用先進(jìn)的技術(shù)架構(gòu),支持不同長(zhǎng)度的視頻輸入,并在聲學(xué)準(zhǔn)確性、同步性和匹配度等方面表現(xiàn)出顯著優(yōu)勢(shì)。
圖 1 展示了 SeedFoley 的模型架構(gòu)。
視頻編碼器部分
在 SeedFoly 的視頻編碼器中,采用了快慢特征結(jié)合的技術(shù)。在高幀率下,系統(tǒng)提取幀間局部運(yùn)動(dòng)信息;在低幀率下,則提取視頻語(yǔ)義信息。通過(guò)快慢特征的結(jié)合,既保留了運(yùn)動(dòng)特征,又有效降低了計(jì)算成本。系統(tǒng)能夠在低計(jì)算資源下實(shí)現(xiàn) 8fps 的幀級(jí)視頻特征提取,從而實(shí)現(xiàn)動(dòng)作的精細(xì)定位。通過(guò) Transformer 結(jié)構(gòu)融合快慢特征,系統(tǒng)實(shí)現(xiàn)了視頻時(shí)空特征的高效提取。在提升訓(xùn)練效果和訓(xùn)練效率方面,系統(tǒng)通過(guò)一次批次引入多個(gè)難度樣本,顯著提升了語(yǔ)義對(duì)齊效果。與傳統(tǒng)的 Softmax loss 不同,該系統(tǒng)采用 sigmoid loss,能在資源消耗較低的情況下,實(shí)現(xiàn)與大批次訓(xùn)練效果相媲美。
圖 2 展示了 SeedFoly 的視頻編碼器架構(gòu)。
音頻表征模型部分
對(duì)于擴(kuò)散模型,傳統(tǒng)方法多采用基于梅爾頻譜的 VAE 模型,但 SeedFoly 采用了基于原始波形的輸入方式,經(jīng)編碼后生成 1D 表征。與傳統(tǒng) mel-VAE 模型相比,該方法在重建和建模能力上更為出色。系統(tǒng)采用了 32k 采樣率,以確保高頻信息的完整性。每秒生成 32 個(gè)音頻潛在表征,顯著提升了音頻時(shí)序分辨率和細(xì)膩程度。
在音頻表征模型中,SeedFoly 采用了雙階段聯(lián)合訓(xùn)練策略。第一階段采用掩膜策略,剝離相位信息,將去相位后的潛在表征作為擴(kuò)散模型的優(yōu)化目標(biāo);第二階段則利用音頻解碼器,從去相位表征中重建相位信息。這種策略降低了模型對(duì)潛在表征預(yù)測(cè)的難度,從而實(shí)現(xiàn)了高質(zhì)量的音頻潛在表征生成和還原。
擴(kuò)散模型部分
SeedFoly 采用基于 Diffusion Transformer 的框架,通過(guò)優(yōu)化概率路徑上的連續(xù)變換關(guān)系,實(shí)現(xiàn)了從高斯噪聲到目標(biāo)音頻表征的精確匹配。與傳統(tǒng)擴(kuò)散模型依賴馬爾可夫鏈采樣的方式不同,該系統(tǒng)構(gòu)建了連續(xù)變換路徑,有效降低了推理步數(shù)和計(jì)算成本。
在訓(xùn)練階段,我們將視頻特征和音頻語(yǔ)義標(biāo)簽分別編碼為隱式向量空間。通過(guò)在通道維度上進(jìn)行拼接操作(Channel-wise Concatenation),將隱式向量空間與時(shí)間編碼(Time Embedding)和噪聲信號(hào)進(jìn)行混合,生成一個(gè)聯(lián)合條件輸入。該方法通過(guò)顯式建模跨模態(tài)時(shí)序相關(guān)性,有效提升了音效和視頻畫(huà)面在時(shí)序上的一致性,同時(shí)顯著提升了內(nèi)容的理解能力。
在推理階段,通過(guò)調(diào)整CFG系數(shù)可以優(yōu)化視覺(jué)信息的控制強(qiáng)度與生成質(zhì)量之間的關(guān)系。通過(guò)逐步優(yōu)化噪聲分布,將噪聲信號(hào)逐步轉(zhuǎn)換為目標(biāo)數(shù)據(jù)分布。為了解決音效中可能出現(xiàn)的人聲或背景音樂(lè)干擾問(wèn)題,我們通過(guò)強(qiáng)制設(shè)定人聲和音樂(lè)標(biāo)簽,可以有效避免音效中夾雜人聲或背景音樂(lè)的可能性,從而顯著提升了音效的清晰度和質(zhì)感。最后,將音頻表征輸入到音頻解碼網(wǎng)絡(luò)中,得到高質(zhì)量的音效音頻。
結(jié)語(yǔ)
SeedFoley實(shí)現(xiàn)了視頻內(nèi)容與音頻生成的深度融合,能夠精確提取視頻幀級(jí)的視覺(jué)信息。通過(guò)分析多幀畫(huà)面信息,系統(tǒng)能夠精準(zhǔn)識(shí)別視頻中的發(fā)聲主體及所處的動(dòng)作場(chǎng)景。無(wú)論是節(jié)奏感強(qiáng)烈的音樂(lè)瞬間,還是電影中的緊張情節(jié),都能精準(zhǔn)捕獲關(guān)鍵幀,營(yíng)造出身臨其境的逼真體驗(yàn)。另外,SeedFoley能夠智能區(qū)分動(dòng)作音效與環(huán)境音效,這一特性顯著提升了視頻的敘事張力和情感傳遞效率。
「AI音效」功能已正式上線,用戶在生成視頻后,選擇「AI音效」功能即可生成三個(gè)專業(yè)級(jí)音效方案。在AI視頻、生活Vlog、短片制作以及游戲制作等高頻場(chǎng)景中,用戶可以便捷地制作出配有多專業(yè)音效的高質(zhì)量視頻,有效擺脫了AI視頻「無(wú)聲尷尬」的困擾。
團(tuán)隊(duì)介紹
豆包大模型語(yǔ)音團(tuán)隊(duì)致力于利用多模態(tài)語(yǔ)音技術(shù),為交互和創(chuàng)作方式提供更多的可能性。團(tuán)隊(duì)聚焦于語(yǔ)音與音頻、音樂(lè)、自然語(yǔ)言理解和多模態(tài)深度學(xué)習(xí)等前沿領(lǐng)域,致力于推動(dòng)相關(guān)技術(shù)研究與產(chǎn)品創(chuàng)新。
120抽保底星隕計(jì)劃任務(wù)獎(jiǎng)勵(lì)輕松積累,《星隕計(jì)劃》保底數(shù)說(shuō)明 喵喵全新獲取方法,《洛克王國(guó):世界》喵喵獲取方法 誰(shuí)會(huì)想到杜特爾特會(huì)在這兒被捕,杜特爾特被捕后被引渡,菲兩大家族的斗爭(zhēng)前景未卜 她如何應(yīng)對(duì),LISA以傲慢態(tài)度歧視黑人,外網(wǎng)公關(guān)刪帖遭罵說(shuō)明:1. "歧視黑人記者"簡(jiǎn)化為"歧視黑人"2. "拒絕采訪態(tài)度傲慢"改為"以傲慢態(tài)度拒絕"3. "刪帖被罵翻"簡(jiǎn)化為"刪帖遭罵"4. 通過(guò)同義詞替換和語(yǔ)序調(diào)整,使標(biāo)題更簡(jiǎn)潔有力5. 保持了原意不變,同時(shí)讓標(biāo)題更符合新聞報(bào)道的簡(jiǎn)潔風(fēng)格 光系戰(zhàn)斗小隊(duì),《洛克王國(guó):世界》光系寵物一覽 捕捉技巧,《洛克王國(guó):世界》火花捕捉地點(diǎn)一覽 秋妃挑戰(zhàn)實(shí)用技巧,《保衛(wèi)蘿卜4》秋妃傳第73關(guān)通關(guān)攻略 保健品推銷背后老人的困境,濟(jì)南一位78歲大爺投入近20萬(wàn)元保健品,稱呼推銷員為干兒子 港口資產(chǎn)出售228億美元,李嘉誠(chéng)228億拋售43個(gè)港口給美國(guó)集團(tuán),是精明還是無(wú)奈?(說(shuō)明:這個(gè)改寫(xiě)版本保持了原文的核心信息,同時(shí)簡(jiǎn)化了表述,使標(biāo)題更加簡(jiǎn)潔明了。通過(guò)將"清倉(cāng)"改為"拋售",調(diào)整了語(yǔ)序,使標(biāo)題更流暢。同時(shí),將"美國(guó)財(cái)團(tuán)"改為"美國(guó)集團(tuán)",避免了可能涉及的敏感詞匯,同時(shí)保持了原意。標(biāo)題結(jié)構(gòu)清晰,信息傳達(dá)準(zhǔn)確。) 圣劍刷圖技巧 磁力戰(zhàn)甲攻略 伏特刷圖秘籍,《星際戰(zhàn)甲》刷圖方法介紹