自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="gn5yb"></s>

<blockquote id="gn5yb"><rt id="gn5yb"></rt></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

告別視頻通話“渣畫質(zhì)”，英偉達新算法最高壓縮90%流量

作者：曉查 2020-12-02 14:50:55

新聞人工智能算法

為了讓網(wǎng)速慢的用戶用上高清通話，英偉達可謂絞盡腦汁。他們開發(fā)的新AI算法，可以將視頻通話的流量最高壓縮90%以上。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

為了讓網(wǎng)速慢的用戶用上高清通話，英偉達可謂絞盡腦汁。他們開發(fā)的新AI算法，可以將視頻通話的流量最高壓縮90%以上。

和其他視頻相比，通話的場景比較單一，基本上只有人的頭部在運動。因此只要能把頭像數(shù)據(jù)大規(guī)模壓縮，就能大大節(jié)約流量。

英偉達的新算法face vid2vid正是從這一點出發(fā)。只要一張圖片，就能實現(xiàn)重建各種頭部姿勢圖片。

H.264視頻所需的帶寬是這種新算法的2~12倍，從前面的演示也能看出，如果讓二者使用相同比特率，那么H.264視頻幾乎不可用。

告別視頻通話“渣畫質(zhì)”，英偉達新算法最高壓縮90%流量

轉(zhuǎn)動面部不扭曲

英偉達提供了一個試用Demo，可以在Pitch（俯仰角）、Yaw（偏航角）、Roll（翻滾角）三個方向上任意旋轉(zhuǎn)。

告別視頻通話“渣畫質(zhì)”，英偉達新算法最高壓縮90%流量

輸入一張人臉，最多可以在每個方向上最多旋轉(zhuǎn)30度。以下是三個方向上旋轉(zhuǎn)到最大角度生成的圖片。

告別視頻通話“渣畫質(zhì)”，英偉達新算法最高壓縮90%流量

與相比之前的方法，英偉達的這種技術即使在面部轉(zhuǎn)動幅度較大時，人臉也不會扭曲變形。

告別視頻通話“渣畫質(zhì)”，英偉達新算法最高壓縮90%流量

然而，圖片終究是不動的，要把生成的人臉放在運動的視頻中還要多一個步驟。

合成面部視頻

我們把上傳的清晰照片作為源圖像，從中獲取外貌特征。然后把視頻中一幀幀畫面作為重構視頻的依據(jù)，從中提取出面部表情和頭部姿勢等信息。

而表情和姿勢這兩個數(shù)據(jù)可以通過關鍵點進行編碼，這樣就分離了人物身份信息和運動信息。在傳輸視頻時只要有運動信息即可，從而節(jié)約了流量。

告別視頻通話“渣畫質(zhì)”，英偉達新算法最高壓縮90%流量

從源圖像s中，我們得到了兩組數(shù)據(jù)：關鍵點坐標x和雅可比矩陣J。這兩組參數(shù)與面部的具體特征無關，只包含人的幾何特征。

其中，雅可比矩陣表示如何通過仿射變換將關鍵點周圍的局部補丁轉(zhuǎn)換為另一幅圖像中的補丁。如果是恒等雅可比矩陣，則補丁將直接復制并粘貼到新位置。

告別視頻通話“渣畫質(zhì)”，英偉達新算法最高壓縮90%流量

下圖展示了計算前5個關鍵點的流程。給定源圖像以及模型預測的規(guī)范關鍵點。

告別視頻通話“渣畫質(zhì)”，英偉達新算法最高壓縮90%流量

從運動視頻估計的旋轉(zhuǎn)和平移應用于關鍵點，帶動頭部姿勢的變化。然后可以感知表情的變形將關鍵點調(diào)整為目標表情。

接下來開始合成視頻。使用源和運動的關鍵點與其雅可比矩陣來估計流wk，從生成流組合成掩碼m，將這兩組進行線性組合即可產(chǎn)生合成流場w。

告別視頻通話“渣畫質(zhì)”，英偉達新算法最高壓縮90%流量

接著輸入人臉面部特征f，即可生成輸出圖像y。

這種方法不僅能用于視頻通話，也有其他“新玩法”。

比如覺得人物頭像有點歪，可以手動輸入糾正后的數(shù)據(jù)，從而將面部轉(zhuǎn)正。

告別視頻通話“渣畫質(zhì)”，英偉達新算法最高壓縮90%流量

又或者是，把一個人的面部特征點和雅可比矩陣用于另一個人，實現(xiàn)面部視頻動作的遷移。

告別視頻通話“渣畫質(zhì)”，英偉達新算法最高壓縮90%流量

團隊簡介

這篇文章的第一作者是來自英偉達的高級研究員Ting-Chun Wang。

文章的通訊作者是英偉達的著名研究員劉洺堉。

如果你長期關注CV領域，一定對這兩位作者非常熟悉。他們在圖像風格遷移、GAN等方面做出了大量的工作。

告別視頻通話“渣畫質(zhì)”，英偉達新算法最高壓縮90%流量

△ GauGAN

兩人之前已經(jīng)有過多次合作。比如。無監(jiān)督圖像遷移網(wǎng)絡（NIPS 2017），還有從涂鴉生成照片的GauGAN（CVPR 2019），都是出自這二位之手。

項目頁面： https://nvlabs.github.io/face-vid2vid/

論文地址： https://arxiv.org/abs/2011.15126

責任編輯：張燕妮來源：量子位

算法人圖片技術

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<tfoot id="7orby"></tfoot>

<var id="7orby"><button id="7orby"><span id="7orby"></span></button></var>

<center id="7orby"></center>