自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

火山引擎發(fā)布大模型訓(xùn)練視頻預(yù)處理方案,已應(yīng)用于豆包視頻生成模型

云計(jì)算
10月15日,火山引擎在視頻云技術(shù)大會(huì)上發(fā)布了大模型訓(xùn)練視頻預(yù)處理方案,助力解決視頻大模型訓(xùn)練的成本、質(zhì)量和性能等方面的技術(shù)挑戰(zhàn)。目前,該技術(shù)方案已應(yīng)用于豆包視頻生成模型。

10月15日,火山引擎在視頻云技術(shù)大會(huì)上發(fā)布了大模型訓(xùn)練視頻預(yù)處理方案,助力解決視頻大模型訓(xùn)練的成本、質(zhì)量和性能等方面的技術(shù)挑戰(zhàn)。目前,該技術(shù)方案已應(yīng)用于豆包視頻生成模型。

火山引擎總裁譚待在活動(dòng)致辭表示,在AIGC、多模態(tài)等技術(shù)的共同推動(dòng)下,用戶體驗(yàn)在多個(gè)維度上經(jīng)歷著深刻轉(zhuǎn)變,“基于抖音業(yè)務(wù)實(shí)踐和與行業(yè)客戶共創(chuàng),火山引擎視頻云正積極探索AI大模型與視頻技術(shù)的深度融合,在技術(shù)底座、處理鏈路和業(yè)務(wù)增長層面為企業(yè)尋找解法?!弊T待說。

自研多媒體處理框架BMF ,助力豆包視頻生成模型突破業(yè)界難題

據(jù)介紹,對(duì)訓(xùn)練視頻進(jìn)行預(yù)處理是保障大模型訓(xùn)練效果的重要前提。預(yù)處理過程可以統(tǒng)一視頻的數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量、實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、減少數(shù)據(jù)量以及處理標(biāo)注信息,從而使模型能更高效地學(xué)習(xí)視頻中的特征和知識(shí),提升訓(xùn)練效果和效率。

抖音集團(tuán)視頻架構(gòu)負(fù)責(zé)人王悅表示,對(duì)大模型廠商而言,上述過程中面臨著諸多挑戰(zhàn)。

“首先,超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集導(dǎo)致計(jì)算和處理成本激增,”王悅說,“其次是視頻樣本數(shù)據(jù)參差不齊,然后是處理鏈路環(huán)節(jié)多、工程復(fù)雜,最后還面臨著對(duì)GPU、CPU、ARM等多種異構(gòu)算力資源的調(diào)度部署?!?/span>

抖音集團(tuán)視頻架構(gòu)負(fù)責(zé)人王悅介紹火山引擎大模型訓(xùn)練視頻預(yù)處理方案。

借助Intel的CPU等資源,火山引擎此次發(fā)布的大模型訓(xùn)練視頻預(yù)處理方案依托于自研的多媒體處理框架BMF,能有效應(yīng)對(duì)模型訓(xùn)練的算力成本挑戰(zhàn)。此外,該方案還在算法和工程方面進(jìn)行了調(diào)優(yōu),可以對(duì)海量視頻數(shù)據(jù)高質(zhì)量預(yù)處理,短時(shí)間內(nèi)實(shí)現(xiàn)處理鏈路的高效協(xié)同,提高模型訓(xùn)練效率。值得一提的是,火山引擎本次還發(fā)布并開源了移動(dòng)端后處理解決方案BMF lite版本。BMF lite支持端側(cè)大模型接入和算子加速,更加輕量、通用。

Bytedance Research 負(fù)責(zé)人李航介紹,豆包視頻生成模型PixelDance在訓(xùn)練過程中采用了火山引擎的大模型訓(xùn)練視頻預(yù)處理方案,充分利用了大量潮汐資源,為模型訓(xùn)練提供了有力支撐?;鹕揭嬉曨l云團(tuán)隊(duì)提供的點(diǎn)播解決方案還為PixelDance生產(chǎn)的視頻提供了從編輯、上傳、轉(zhuǎn)碼、分發(fā)、播放的全生命周期一站式服務(wù),讓模型的商業(yè)化應(yīng)用有了保障。

據(jù)了解,豆包視頻生成模型PixelDance于9月24日發(fā)布,該模型采用 DiT 架構(gòu),通過高效的DiT融合計(jì)算單元和全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法,突破了多主體運(yùn)動(dòng)的復(fù)雜交互、多鏡頭切換的內(nèi)容一致性難題,在業(yè)界引起廣泛關(guān)注。目前,豆包視頻生成模型已通過火山引擎面向企業(yè)開啟邀測。

多項(xiàng)“音視頻+AI”技術(shù)方案,助力企業(yè)全鏈路適配AIGC時(shí)代

此次活動(dòng)中,火山引擎還發(fā)布了跨語言同聲復(fù)刻直播方案、多模態(tài)視頻理解與生成方案、對(duì)話式AI實(shí)時(shí)交互方案和AIG3D&大場景重建方案,從視頻的生產(chǎn)端、交互端到消費(fèi)端,全鏈路融入了AI的能力。

火山引擎視頻云負(fù)責(zé)人Yongyuan 指出,在AI視頻時(shí)代,人和AI交互變得更加動(dòng)態(tài)和生動(dòng),這要求處理鏈路更加智能和交互。

以對(duì)話式AI實(shí)時(shí)交互方案為例,依托豆包大模型和火山引擎視頻云自研的多項(xiàng)算法,火山引擎為用戶提供了智能對(duì)話和自然語言處理的強(qiáng)大能力,可實(shí)現(xiàn)毫秒級(jí)人聲檢測和打斷響應(yīng),以及絲滑穩(wěn)定的端到端響應(yīng)體驗(yàn)。

在沉浸式消費(fèi)體驗(yàn)方面,火山引擎通過AI生成3D內(nèi)容和大場景重建方案,為山西高平二郎廟金代戲臺(tái)和北京正乙祠兩座珍貴的歷史建筑生成了3D數(shù)字資產(chǎn),并以虛擬直播間的形式應(yīng)用于抖音的戲曲直播場景。

大會(huì)上,王悅還透露了字節(jié)自研視頻編解碼芯片的最新進(jìn)展,經(jīng)過抖音集團(tuán)內(nèi)部的實(shí)踐驗(yàn)證,該芯片在同等視頻壓縮效率下,成本節(jié)省了95%以上,還在2024MSU世界編碼器大賽中一舉奪得最佳ASIC編碼器。

王悅表示,該芯片將于近期正式對(duì)外開放測試,招募首批種子用戶,共同探索商業(yè)價(jià)值的可復(fù)制性。

火山引擎視頻云團(tuán)隊(duì)為字節(jié)跳動(dòng)提供音視頻技術(shù),并通過火山引擎服務(wù)外部客戶。

責(zé)任編輯:鳶瑋 來源: 火山引擎
相關(guān)推薦

2024-09-24 15:51:02

2024-10-09 11:12:36

2023-11-06 10:07:22

模型人工智能數(shù)字

2024-11-08 17:34:38

2024-11-08 09:11:24

2024-02-19 07:58:01

OpenAI模型GPT

2024-10-28 07:30:00

2024-05-15 10:59:40

火山引擎豆包扣子

2025-03-07 08:00:00

數(shù)據(jù)數(shù)據(jù)集集神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理

2024-05-15 16:21:18

火山引擎大模型豆包

2023-04-03 10:04:44

開源模型

2024-12-27 20:47:19

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)