自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="jbkth"></style><p id="jbkth"><li id="jbkth"></li></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

效果超越SDXL！港中大博士生推出超真實(shí)人像合成工具，訓(xùn)練用了3.4億張圖

作者：克雷西 2023-11-20 09:35:00

人工智能新聞

這個(gè)模型的名字叫HyperHuman，主打的就是一個(gè)真實(shí)立體。它解決了Stable Diffusion等傳統(tǒng)AI繪圖工具在畫人時(shí)圖像不連貫、姿態(tài)不自然的問題。

為了讓AI畫出的人更加逼真，港中大博士生用了3.4億張圖像專門訓(xùn)練畫人。

人物的表情、姿態(tài)，環(huán)境的空間關(guān)系、光線都能合理布局，可謂立體感十足。

就連爆火的SDXL也不是它的對(duì)手，話不多說，直接上圖！

這個(gè)模型的名字叫HyperHuman，主打的就是一個(gè)真實(shí)立體。

它解決了Stable Diffusion等傳統(tǒng)AI繪圖工具在畫人時(shí)圖像不連貫、姿態(tài)不自然的問題。

而且不僅畫得好，也更加“聽話”，畫出的內(nèi)容能更好地匹配提示詞。

那么下面就來具體看看HyperHuman都能創(chuàng)作出哪些作品吧！
無論是孩子還是老人，各個(gè)年齡段的人人物形象HyperHuman都可以畫。

人物的動(dòng)作、表情自然，空間關(guān)系看著也很合理。

不僅是圖本身看上去真實(shí)，和提示文本的匹配也十分精確。

人物之外，HyperHuman能繪制出的場(chǎng)景類型也多種多樣。
無論是單人還是多人，是滑雪或者沖浪……

如果和其他模型對(duì)比一下的話……

很明顯，在這組提示詞中，其他模型基本上都沒能正確畫出停止標(biāo)志，而HyperHuman則正確地繪制了出來。

A man on a motorcycle that is on a road that has grass fields on both sides and a stop sign.

而在這一組中，其他模型的作品或者不知所云，或者出現(xiàn)各種細(xì)節(jié)問題，更有甚者畫出的人長(zhǎng)了三只腳，但HyperHuman依舊是穩(wěn)定發(fā)揮。

Mastering the art of skateboarding is profoundly beneficial.

不僅是直觀感受，在數(shù)據(jù)上HyperHuman也是全面碾壓包括SD2.0在內(nèi)的一眾競(jìng)爭(zhēng)對(duì)手。

圖像質(zhì)量方面，HyperHuman的FID、KID兩項(xiàng)指標(biāo)（均為數(shù)值越低效果越好）都超過了其他模型四分之一以上。

姿勢(shì)準(zhǔn)確度上，HyperHuman的兩項(xiàng)評(píng)分也明顯勝過了ControlNet等其他模型。

那么，HyperHuman又是如何實(shí)現(xiàn)的呢？

聯(lián)合學(xué)習(xí)，分步生成

為了提高HyperHuman的效果，研究團(tuán)隊(duì)一共提出了兩個(gè)思路。

首先是同時(shí)學(xué)習(xí)圖片的顏色、深度圖和法線圖。

顏色反映外觀，深度圖反映物體位置，法線圖反映表面角度。將它們一起學(xué)習(xí)，可以讓模型更好地理解圖片內(nèi)容。

第二點(diǎn)則是分階段生成，先使用文本和骨架點(diǎn)作為條件，生成顏色、深度和法線三者的初步合成結(jié)果。
然后以前面生成的條件作為指引，生成更高分辨率和質(zhì)量的圖片。

具體實(shí)現(xiàn)上，HyperHuman和SDXL一樣也是采用擴(kuò)散模型。

具體而言，HyperHuman使用的是“潛在結(jié)構(gòu)（latent structal）”模型。

它的核心包括以下兩個(gè)模塊：

聯(lián)合去噪模塊：具有多個(gè)輸入輸出分支的統(tǒng)一網(wǎng)絡(luò)結(jié)構(gòu)，在顏色、深度和法線圖三個(gè)維度同時(shí)去除噪聲。
結(jié)構(gòu)指導(dǎo)模塊：用上一步產(chǎn)生的結(jié)果作為條件和指引，實(shí)現(xiàn)結(jié)構(gòu)到紋理的精細(xì)化生成。

此外，為了提高魯棒性，模型在生成過程中還會(huì)選擇的的對(duì)一些條件進(jìn)行取舍。

訓(xùn)練數(shù)據(jù)方面，開發(fā)者將LAION-2B和COYO兩個(gè)數(shù)據(jù)集中的公開資源進(jìn)行整合并處理、標(biāo)注，得到了約3.4億張圖像的HumanVerse數(shù)據(jù)集。

結(jié)果在基于COCO 2014數(shù)據(jù)集的多個(gè)繪圖模型橫評(píng)中，HyperHuman（紅色）都取得了最佳成績(jī)，如果考慮文本匹配度，HyperHuman更是一騎絕塵。

△FID數(shù)值越低成績(jī)?cè)胶?/p>

除了測(cè)試數(shù)據(jù)，研究人員還招募了100名用戶，調(diào)查了他們更青睞于哪種模型的作品。

他們被要求選出更逼真、質(zhì)量更好的圖像，結(jié)果和另外多種模型相比，HyperHuman都更受歡迎。

作者簡(jiǎn)介

HyperHuman論文第一作者是香港中文大學(xué)博士生Xian Liu。

HyperHuman是他在Snap公司實(shí)習(xí)期間完成的，Snap的Sergey Tulyakov等人也參與了本項(xiàng)目。

此外還有香港大學(xué)和南洋理工大學(xué)的學(xué)者對(duì)HyperHuman亦有貢獻(xiàn)。

責(zé)任編輯：張燕妮來源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="ghbkd"></sub><sub id="ghbkd"></sub>