自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

快手開源圖生視頻模型LivePortrait,等待生成時(shí)間僅需10秒,棄擴(kuò)散改用隱式關(guān)鍵點(diǎn)框架技術(shù),網(wǎng)友:強(qiáng)得可怕

原創(chuàng) 精選
人工智能
LivePortrait的架構(gòu)包括多個(gè)關(guān)鍵組件:外觀特征提取器、規(guī)范隱式關(guān)鍵點(diǎn)檢測器、頭部姿勢估計(jì)網(wǎng)絡(luò)、表情變形估計(jì)網(wǎng)絡(luò)、扭曲場估計(jì)器和生成器。

編輯 | 伊風(fēng)

快手開源了LivePortrait模型!

要知道,可靈的文生視頻和圖生視頻功能不僅備受關(guān)注,還一路火到了海外。

這次開源的LivePortrait效果也十足驚艷!雖然驅(qū)動(dòng)肖像生成視頻的技術(shù)并不算新鮮,但還是靠效果征服了觀眾。

圖片圖片

網(wǎng)友直呼,“太可靈了”。根據(jù)推測,這個(gè)技術(shù)很可能已經(jīng)在快影接入的可靈模型里應(yīng)用了一段時(shí)間了。

毫無疑問,此次開源大大降低了擁有自己數(shù)字人的門檻!

更妙的是,網(wǎng)友嘗試用開源的代碼進(jìn)行部署。發(fā)現(xiàn)生成10秒視頻竟然也只需10秒,速度快得可怕。

超快的速度意味著LivePortrait的生成能力已經(jīng)無限逼近實(shí)時(shí)。未來將可能在實(shí)時(shí)應(yīng)用上大展拳腳,例如視頻會(huì)議、社交媒體直播和實(shí)時(shí)游戲動(dòng)畫等場景。   

可靈創(chuàng)作者群@guohunyo作品 項(xiàng)目地址,感興趣的朋友請移步GitHub:可靈創(chuàng)作者群@guohunyo作品 項(xiàng)目地址,感興趣的朋友請移步GitHub:

https://github.com/KwaiVGI/LivePortrait?tab=readme-ov-file

論文地址:

https://arxiv.org/pdf/2407.03168

讀了這篇《LivePortrait:具有縫合和重定向控制的高效肖像動(dòng)畫》論文后,我們發(fā)現(xiàn)快手在LivePortrait模型上進(jìn)行了許多創(chuàng)新和改進(jìn)。

其中最引人關(guān)注的是:LivePortrait放棄了我們所熟知的擴(kuò)散模型,而是采用了隱式關(guān)鍵點(diǎn)框架。

被網(wǎng)友昵稱為:擠眉弄眼模型被網(wǎng)友昵稱為:擠眉弄眼模型


1.隱式關(guān)鍵點(diǎn)框架:不止于快的秘訣

LivePortrait的架構(gòu)包括多個(gè)關(guān)鍵組件:外觀特征提取器、規(guī)范隱式關(guān)鍵點(diǎn)檢測器、頭部姿勢估計(jì)網(wǎng)絡(luò)、表情變形估計(jì)網(wǎng)絡(luò)、扭曲場估計(jì)器和生成器。

這些組件協(xié)同工作,將源圖像的特征與驅(qū)動(dòng)視頻的運(yùn)動(dòng)特征結(jié)合起來,生成最終的動(dòng)畫。

不同于此前走紅的阿里的EMO,其使用了穩(wěn)定擴(kuò)散方案來生成視頻,通過逐步引入和去除噪聲在潛在空間中生成一幀幀圖像。

LivePortrait的隱式關(guān)鍵點(diǎn)框架使用一組抽象的特征來表示圖像。這些特征重點(diǎn)捕捉了圖像的重要信息,例如面部特征、輪廓等。   

生成人物動(dòng)作和表情時(shí),LivePortrait更不容易“崩壞”。這是因?yàn)殛P(guān)鍵點(diǎn)通常對應(yīng)于面部的特定部位,如眼角、嘴角、鼻子等,這些關(guān)鍵點(diǎn)的位置和變化可以驅(qū)動(dòng)面部表情和頭部運(yùn)動(dòng)。

因此,隱式關(guān)鍵點(diǎn)框架具備良好的靈活性。通過操作關(guān)鍵點(diǎn),模型可以更精確地控制面部動(dòng)畫的細(xì)節(jié),實(shí)現(xiàn)平滑和逼真的過渡效果。

圖片圖片

上圖:模型可以生動(dòng)地對圖像進(jìn)行動(dòng)畫化,確保無縫拼接,并提供對眼睛和嘴唇運(yùn)動(dòng)的精確控制。

同時(shí),關(guān)鍵點(diǎn)的方式使得模型的泛化能力也得到提升。通過學(xué)習(xí)關(guān)鍵點(diǎn)的運(yùn)動(dòng)模式,LivePortrait可以更好地泛化到新的、未見過的圖像上。

而擴(kuò)散模型通常需要更長的推理時(shí)間,因?yàn)橹鸩饺ピ氲姆椒ㄗ⒍ㄔ龆嗔松刹襟E,使得生成每一幀圖像的時(shí)間較長,無法達(dá)到“實(shí)時(shí)”效果。   

2.訓(xùn)練方法和訓(xùn)練數(shù)據(jù)

在訓(xùn)練方法上LivePortrait的訓(xùn)練分成了兩個(gè)階段。

第一階段,模型在沒有任何預(yù)訓(xùn)練的權(quán)重下,從零開始全面訓(xùn)練,使用了8個(gè)NVIDIA A100 GPU,訓(xùn)練時(shí)間約為10天。使用了ConvNeXt-V2-Tiny作為主干網(wǎng)絡(luò),有助于減少模型的計(jì)算負(fù)擔(dān)。

第二階段,只訓(xùn)練縫合和重定向模塊,而保持其他參數(shù)不變。訓(xùn)練縫合模塊可以確保動(dòng)畫后的肖像能夠無縫地融入原始圖像空間,特別是在處理多人肖像或全身圖像時(shí);而訓(xùn)練眼睛和嘴唇的重定向模塊,以便能夠根據(jù)驅(qū)動(dòng)視頻精確控制這些面部特征的運(yùn)動(dòng)。第二階段的訓(xùn)練時(shí)間約為2天。

在訓(xùn)練數(shù)據(jù)上,LivePortrait的訓(xùn)練數(shù)據(jù)規(guī)模擴(kuò)展到了約6900萬高質(zhì)量的幀,訓(xùn)練數(shù)據(jù)包括各種姿勢和表情的4K分辨率肖像視頻,以及大量的頭部談話視頻。

現(xiàn)在,訓(xùn)練數(shù)據(jù)的質(zhì)量越來越受到重視。LivePortrait也使用了一些“巧思”確保數(shù)據(jù)的高質(zhì)量。

首先,LivePortrait使用了KVQ等工具來排除低質(zhì)量的視頻片段。其次,在訓(xùn)練數(shù)據(jù)中,將長視頻分割為不超過30秒的片段,確保每個(gè)片段只包含一個(gè)人,讓模型更精準(zhǔn)的學(xué)習(xí)一個(gè)人的表情活動(dòng)。此外,數(shù)據(jù)十分注重身份多樣性,使用的訓(xùn)練數(shù)據(jù)來自約18.9K個(gè)不同的身份,有效避免對特定身份的過擬合。

3.寫在最后

圖生視頻技術(shù)正在跑步進(jìn)入下一個(gè)階段。

在此時(shí),騰訊卻突然宣布將“數(shù)字人”驅(qū)逐出視頻號(hào)。騰訊計(jì)劃通過修訂《視頻號(hào)櫥窗達(dá)人“發(fā)布低質(zhì)量內(nèi)容”實(shí)施細(xì)則》來進(jìn)一步限制使用數(shù)字人直播,將使用AI工具生成虛擬形象進(jìn)行直播等行為明確列入低質(zhì)量內(nèi)容。

這無疑釋放了一個(gè)信號(hào):AI等技術(shù)生成內(nèi)容帶來的風(fēng)險(xiǎn)仍不可小覷,內(nèi)容的不可控、直播“翻車”、誤導(dǎo)消費(fèi)者等等仍然是技術(shù)尚未解決的難題。

事實(shí)正在側(cè)面印證這一觀點(diǎn),每當(dāng)有社會(huì)新聞?wù)Q生時(shí),就不乏好事者用當(dāng)事人的圖像生成煽動(dòng)性的動(dòng)態(tài)圖像。

這很可能倒逼平臺(tái)收緊生成政策,不斷疊加敏感詞,抱著“寧可錯(cuò)殺一千不能放過一個(gè)”的方式來對待用戶的prompt。

圖片圖片

技術(shù)進(jìn)步并非孤立發(fā)生。本身中性的技術(shù)如果被濫用,其影響可能深遠(yuǎn)且復(fù)雜。

在這樣的背景下,我們不得不深思:公眾的媒介素養(yǎng)應(yīng)該如何提升,才能追得上技術(shù)的日新月異。這不僅關(guān)乎技術(shù)生態(tài)的健康發(fā)展,更關(guān)乎文明。

想了解更多AIGC的內(nèi)容,請?jiān)L問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2022-11-14 14:08:39

計(jì)算機(jī)模型

2024-03-20 12:27:48

模型訓(xùn)練

2009-09-02 15:37:26

Windows 7Windows XP操作系統(tǒng)

2023-10-11 12:32:26

模型訓(xùn)練

2023-12-20 14:54:29

谷歌Gen-2視頻

2015-11-27 10:34:03

PHPJavaScript

2024-03-22 13:05:23

數(shù)據(jù)訓(xùn)練

2024-06-26 14:50:52

2023-10-29 22:25:23

模型AI

2021-05-06 09:12:29

AI 數(shù)據(jù)人工智能

2024-07-30 11:50:00

視頻生成

2024-05-10 07:58:03

2024-12-10 15:30:00

AI模型

2022-08-19 14:46:16

視覺框架

2023-04-13 15:55:00

AI開源

2024-03-18 00:00:03

時(shí)間序列Prompt模型

2017-04-24 07:48:32

2025-03-17 11:35:36

LLaDALLM大型語言模型

2023-12-27 14:06:00

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)