自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="tu5vz"></blockquote>

<style id="tu5vz"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

快手開源圖生視頻模型LivePortrait，等待生成時間僅需10秒，棄擴散改用隱式關(guān)鍵點框架技術(shù)，網(wǎng)友：強得可怕原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2024-7-5 15:05

瀏覽

0收藏

編輯 | 伊風(fēng)

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

快手開源了LivePortrait模型！

要知道，可靈的文生視頻和圖生視頻功能不僅備受關(guān)注，還一路火到了海外。

這次開源的LivePortrait效果也十足驚艷！雖然驅(qū)動肖像生成視頻的技術(shù)并不算新鮮，但還是靠效果征服了觀眾。

快手開源圖生視頻模型LivePortrait，等待生成時間僅需10秒，棄擴散改用隱式關(guān)鍵點框架技術(shù)，網(wǎng)友：強得可怕-AI.x社區(qū) 圖片

網(wǎng)友直呼，“太可靈了”。根據(jù)推測，這個技術(shù)很可能已經(jīng)在快影接入的可靈模型里應(yīng)用了一段時間了。

毫無疑問，此次開源大大降低了擁有自己數(shù)字人的門檻！

更妙的是，網(wǎng)友嘗試用開源的代碼進行部署。發(fā)現(xiàn)生成10秒視頻竟然也只需10秒，速度快得可怕。

超快的速度意味著LivePortrait的生成能力已經(jīng)無限逼近實時。未來將可能在實時應(yīng)用上大展拳腳，例如視頻會議、社交媒體直播和實時游戲動畫等場景。

快手開源圖生視頻模型LivePortrait，等待生成時間僅需10秒，棄擴散改用隱式關(guān)鍵點框架技術(shù)，網(wǎng)友：強得可怕-AI.x社區(qū) 可靈創(chuàng)作者群@guohunyo作品? 項目地址，感興趣的朋友請移步GitHub：

??https://github.com/KwaiVGI/LivePortrait?tab=readme-ov-file??

論文地址：

??https://arxiv.org/pdf/2407.03168??

讀了這篇《LivePortrait：具有縫合和重定向控制的高效肖像動畫》論文后，我們發(fā)現(xiàn)快手在LivePortrait模型上進行了許多創(chuàng)新和改進。

其中最引人關(guān)注的是：LivePortrait放棄了我們所熟知的擴散模型，而是采用了隱式關(guān)鍵點框架。

快手開源圖生視頻模型LivePortrait，等待生成時間僅需10秒，棄擴散改用隱式關(guān)鍵點框架技術(shù)，網(wǎng)友：強得可怕-AI.x社區(qū) 被網(wǎng)友昵稱為：擠眉弄眼模型

1.隱式關(guān)鍵點框架：不止于快的秘訣

LivePortrait的架構(gòu)包括多個關(guān)鍵組件：外觀特征提取器、規(guī)范隱式關(guān)鍵點檢測器、頭部姿勢估計網(wǎng)絡(luò)、表情變形估計網(wǎng)絡(luò)、扭曲場估計器和生成器。

這些組件協(xié)同工作，將源圖像的特征與驅(qū)動視頻的運動特征結(jié)合起來，生成最終的動畫。

不同于此前走紅的阿里的EMO，其使用了穩(wěn)定擴散方案來生成視頻，通過逐步引入和去除噪聲在潛在空間中生成一幀幀圖像。

LivePortrait的隱式關(guān)鍵點框架使用一組抽象的特征來表示圖像。這些特征重點捕捉了圖像的重要信息，例如面部特征、輪廓等。

生成人物動作和表情時，LivePortrait更不容易“崩壞”。這是因為關(guān)鍵點通常對應(yīng)于面部的特定部位，如眼角、嘴角、鼻子等，這些關(guān)鍵點的位置和變化可以驅(qū)動面部表情和頭部運動。

因此，隱式關(guān)鍵點框架具備良好的靈活性。通過操作關(guān)鍵點，模型可以更精確地控制面部動畫的細節(jié)，實現(xiàn)平滑和逼真的過渡效果。

快手開源圖生視頻模型LivePortrait，等待生成時間僅需10秒，棄擴散改用隱式關(guān)鍵點框架技術(shù)，網(wǎng)友：強得可怕-AI.x社區(qū) 圖片

上圖：模型可以生動地對圖像進行動畫化，確保無縫拼接，并提供對眼睛和嘴唇運動的精確控制。

同時，關(guān)鍵點的方式使得模型的泛化能力也得到提升。通過學(xué)習(xí)關(guān)鍵點的運動模式，LivePortrait可以更好地泛化到新的、未見過的圖像上。

而擴散模型通常需要更長的推理時間，因為逐步去噪的方法注定增多了生成步驟，使得生成每一幀圖像的時間較長，無法達到“實時”效果。

2.訓(xùn)練方法和訓(xùn)練數(shù)據(jù)

在訓(xùn)練方法上LivePortrait的訓(xùn)練分成了兩個階段。

第一階段，模型在沒有任何預(yù)訓(xùn)練的權(quán)重下，從零開始全面訓(xùn)練，使用了8個NVIDIA A100 GPU，訓(xùn)練時間約為10天。使用了ConvNeXt-V2-Tiny作為主干網(wǎng)絡(luò)，有助于減少模型的計算負擔(dān)。

第二階段，只訓(xùn)練縫合和重定向模塊，而保持其他參數(shù)不變。訓(xùn)練縫合模塊可以確保動畫后的肖像能夠無縫地融入原始圖像空間，特別是在處理多人肖像或全身圖像時；而訓(xùn)練眼睛和嘴唇的重定向模塊，以便能夠根據(jù)驅(qū)動視頻精確控制這些面部特征的運動。第二階段的訓(xùn)練時間約為2天。

在訓(xùn)練數(shù)據(jù)上，LivePortrait的訓(xùn)練數(shù)據(jù)規(guī)模擴展到了約6900萬高質(zhì)量的幀，訓(xùn)練數(shù)據(jù)包括各種姿勢和表情的4K分辨率肖像視頻，以及大量的頭部談話視頻。

現(xiàn)在，訓(xùn)練數(shù)據(jù)的質(zhì)量越來越受到重視。LivePortrait也使用了一些“巧思”確保數(shù)據(jù)的高質(zhì)量。

首先，LivePortrait使用了KVQ等工具來排除低質(zhì)量的視頻片段。其次，在訓(xùn)練數(shù)據(jù)中，將長視頻分割為不超過30秒的片段，確保每個片段只包含一個人，讓模型更精準(zhǔn)的學(xué)習(xí)一個人的表情活動。此外，數(shù)據(jù)十分注重身份多樣性，使用的訓(xùn)練數(shù)據(jù)來自約18.9K個不同的身份，有效避免對特定身份的過擬合。

3.寫在最后

圖生視頻技術(shù)正在跑步進入下一個階段。

在此時，騰訊卻突然宣布將“數(shù)字人”驅(qū)逐出視頻號。騰訊計劃通過修訂《視頻號櫥窗達人“發(fā)布低質(zhì)量內(nèi)容”實施細則》來進一步限制使用數(shù)字人直播，將使用AI工具生成虛擬形象進行直播等行為明確列入低質(zhì)量內(nèi)容。

這無疑釋放了一個信號：AI等技術(shù)生成內(nèi)容帶來的風(fēng)險仍不可小覷，內(nèi)容的不可控、直播“翻車”、誤導(dǎo)消費者等等仍然是技術(shù)尚未解決的難題。

事實正在側(cè)面印證這一觀點，每當(dāng)有社會新聞?wù)Q生時，就不乏好事者用當(dāng)事人的圖像生成煽動性的動態(tài)圖像。

這很可能倒逼平臺收緊生成政策，不斷疊加敏感詞，抱著“寧可錯殺一千不能放過一個”的方式來對待用戶的prompt。

快手開源圖生視頻模型LivePortrait，等待生成時間僅需10秒，棄擴散改用隱式關(guān)鍵點框架技術(shù)，網(wǎng)友：強得可怕-AI.x社區(qū) 圖片

技術(shù)進步并非孤立發(fā)生。本身中性的技術(shù)如果被濫用，其影響可能深遠且復(fù)雜。

在這樣的背景下，我們不得不深思：公眾的媒介素養(yǎng)應(yīng)該如何提升，才能追得上技術(shù)的日新月異。這不僅關(guān)乎技術(shù)生態(tài)的健康發(fā)展，更關(guān)乎文明。

??想了解更多AIGC的內(nèi)容，請訪問：??

??51CTO AI.x社區(qū)??

http://www.scjtxx.cn/aigc/

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

超10秒高分辨率，北大Open Sora視頻生成更強了，還支持華為芯片

輕薄滴假象 ? 2415瀏覽 ? 0回復(fù)
CVPR 2024 | 僅需文本或圖像提示，新框架CustomNeRF精準(zhǔn)編輯3D場景

輕薄滴假象 ? 2007瀏覽 ? 0回復(fù)
微軟炸裂級單圖生數(shù)字人，Sora同款思路，“比AI劉強東還真”

Crystalcxt ? 3295瀏覽 ? 0回復(fù)
10 秒讓 KimiChat 給你畫個流程圖

wsp_ping ? 5577瀏覽 ? 0回復(fù)
谷歌開源TimesFM：1000億個時間點訓(xùn)練，入選ICML 2024

duhorse ? 2765瀏覽 ? 0回復(fù)
北大快手攻克復(fù)雜視頻生成難題！新框架輕松組合各種細節(jié)，代碼將開源

Crystalcxt ? 2657瀏覽 ? 0回復(fù)
單圖創(chuàng)造虛擬世界只需10秒！斯坦福&MIT聯(lián)合發(fā)布WonderWorld：高質(zhì)量交互生成

angel ? 2620瀏覽 ? 0回復(fù)
時間序列預(yù)測+NLP大模型新作：為時序預(yù)測自動生成隱式Prompt

海因斯DK ? 2970瀏覽 ? 0回復(fù)
Stability.ai開源3D模型，僅需0.5秒就能快速生成

Aceryt ? 2931瀏覽 ? 0回復(fù)
視頻生成更高質(zhì)量，更連貫！關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源

angel ? 2814瀏覽 ? 0回復(fù)
快手、北大開源，超高清10秒、24幀視頻模型

Aceryt ? 1892瀏覽 ? 0回復(fù)
阿里商業(yè)級視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 2307瀏覽 ? 0回復(fù)
16幀1024×1024視頻耗時僅16秒！64倍壓縮助力高效視頻生成：復(fù)旦&微軟發(fā)布Reducio-DiT

angel ? 2599瀏覽 ? 0回復(fù)
Kimi發(fā)布k1視覺思考模型，實力顛覆K12教育賽道，涌現(xiàn)能力強得可怕，免費可用！網(wǎng)友：國產(chǎn)之光！

51CTO技術(shù)棧 ? 2915瀏覽 ? 0回復(fù)
僅128個token達到ImageNet生成SOTA性能！MAETok:有效的擴散模型的關(guān)鍵是什么？(卡內(nèi)基梅隆&港大等)

angel ? 1703瀏覽 ? 0回復(fù)
從 GPT-4O 生圖看自回歸模型與擴散模型的博弈：誰才是圖像生成的未來？

智駐未來 ? 1279瀏覽 ? 0回復(fù)
智譜AI開源6款模型，推理速度200 tokens/秒碾壓競品，價格僅1/30！

AI博物院 ? 1623瀏覽 ? 0回復(fù)
谷歌推出Veo 2，生成8秒超逼真視頻

Aceryt ? 1130瀏覽 ? 0回復(fù)
OpenUI：從構(gòu)思到UI僅需數(shù)秒

51CTO內(nèi)容精選 ? 148瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

中國開源大模型新成員：小米推理大模型首秀！ 3h前發(fā)布
剛剛！一場直播讓宇樹成功正名！直播G1長跑操場40圈，6萬人點贊！真實跑步水平曝光：2m/s接近天工！ 7h前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

微軟突然封鎖Cursor，全面禁用C、C++、C#擴展，網(wǎng)友：理解微軟，Cursor白嫖VSCode 0回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：精準(zhǔn)開大招！商湯發(fā)布首個可控人物大模型！分鐘級、不失真，視頻制作門檻要被砍沒了！

下一篇：李彥宏、王堅、傅盛、周伯文、徐立，AI界大佬、明星都釋放了哪些信號？

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="euqti"><i id="euqti"></i></blockquote>}

<blockquote id="euqti"></blockquote>

<sup id="euqti"><rt id="euqti"></rt></sup>

<cite id="euqti"><track id="euqti"><dfn id="euqti"></dfn></track></cite>