真·重磅研究!32篇論文硬核盤點(diǎn)2022年度AI熱點(diǎn)
雖然世界仍在復(fù)蘇,但研究并沒有放慢其狂熱的步伐,尤其是在人工智能領(lǐng)域。
此外,今年人們對(duì)AI倫理、偏見、治理和透明度都有了新的重視。
人工智能和我們對(duì)人腦的理解及其與人工智能的聯(lián)系在不斷發(fā)展,在不久的將來,這些改善我們生活質(zhì)量的應(yīng)用將大放光彩。
知名博主Louis Bouchard也在自己的博客中盤點(diǎn)了2022年32項(xiàng)(!)AI技術(shù)突破。
接下來讓我們一起看看,這些令人驚艷的研究都有哪些吧!
文章地址:https://www.louisbouchard.ai/2022-ai-recap/
LaMA:基于傅里葉卷積的分辨率穩(wěn)健的大型掩碼修復(fù)
你肯定經(jīng)歷過這種情況:你和你的朋友拍了一張很棒的照片。結(jié)果,你發(fā)現(xiàn)有人在你身后,毀了你要發(fā)到朋友圈或者小紅書的照片。但現(xiàn)在,這不再是問題。
基于傅里葉卷積的分辨率穩(wěn)健的大型掩碼修復(fù)方法,可以讓使用者輕松清除圖像中不需要的內(nèi)容。不論是人,還是垃圾桶都能輕松消失。
它就像是你口袋里的專業(yè)ps設(shè)計(jì)師,只需輕輕一按,就能輕松清除。
雖然看似簡單,但圖像修復(fù)是許多AI研究人員長期以來一直需要解決的問題。
論文鏈接:https://arxiv.org/abs/2109.07161
項(xiàng)目地址:https://github.com/saic-mdal/lama
Colab Demo:https://colab.research.google.com/github/saic-mdal/lama/blob/master/colab/LaMa_inpainting.ipynb
視頻講解:https://youtu.be/Ia79AvGzveQ
短篇分析:https://www.louisbouchard.ai/lama/
STIT:基于GAN的真實(shí)視頻人臉編輯
你肯定有過這樣的經(jīng)歷:在看電影時(shí),會(huì)發(fā)現(xiàn)電影中的演員看起來要比本人年輕得多。
《雙子殺手》中的威爾·史密斯
之前,這需要專業(yè)人員花費(fèi)數(shù)百甚至數(shù)千小時(shí)的工作,手動(dòng)編輯這些演員出現(xiàn)的場景。但利用AI,你可以在幾分鐘內(nèi)完成。
事實(shí)上,許多技術(shù)可以讓你增加笑容,讓你看起來更年輕或更老,所有這些都是使用基于人工智能的算法自動(dòng)完成的。它在視頻中被稱為基于AI的面部操作(AI-based face manipulations),代表了2022年的最新技術(shù)水平。
論文鏈接:https://arxiv.org/abs/2201.08361
項(xiàng)目地址:https://github.com/rotemtzaban/STIT
視頻講解:https://youtu.be/mqItu9XoUgk
短篇分析:https://www.louisbouchard.ai/stitch-it-in-time/
NeROIC:利用在線圖庫的神經(jīng)渲染
神經(jīng)渲染可以通過物體、人物或場景的圖片,在空間中生成逼真的3D模型。
有了這項(xiàng)技術(shù),你只需擁有某物體的幾張圖片,就可以要求機(jī)器了解這些圖片中的物體,并模擬出它在空間中的樣子。
通過圖像來理解物體的物理形狀,這對(duì)人類來說很容易,因?yàn)槲覀兞私庹鎸?shí)的世界。但對(duì)于只能看到像素的機(jī)器來說,這是一個(gè)完全不同的挑戰(zhàn)。
生成的模型如何融入新場景?如果照片的光照條件和角度不同,生成的模型也會(huì)因此變化,該怎么辦?這些都是Snapchat和南加州大學(xué)在這項(xiàng)新研究中需要解決的問題。
論文鏈接:https://arxiv.org/abs/2201.02533
項(xiàng)目地址:https://github.com/snap-research/NeROIC
視頻講解:https://youtu.be/88Pl9zD1Z78
短篇分析:https://www.louisbouchard.ai/neroic/
SpeechPainter:文本條件下的語音修復(fù)
對(duì)于圖像來說,基于機(jī)器學(xué)習(xí)的修復(fù)技術(shù)不僅可以移除其中的內(nèi)容,而且還能根據(jù)背景信息填充圖像的缺失部分。
對(duì)于視頻修復(fù)來說,其挑戰(zhàn)在于不僅要保持幀與幀之間的一致性,而且要避免生成錯(cuò)誤的偽影。同時(shí),當(dāng)你成功地將一個(gè)人從視頻中「踢出去」之后,還需要把他/她的聲音也一并刪除才行。
為此,谷歌的研究人員提出了一種全新的語音修復(fù)方法,可以糾正視頻中的語法、發(fā)音,甚至消除背景噪音。
論文鏈接:https://arxiv.org/abs/2202.07273
視頻講解:https://youtu.be/zIIc4bRf5Hg
短篇分析:https://www.louisbouchard.ai/speech-inpainting-with-ai/
GFP-GAN:利用生成性面部先驗(yàn),實(shí)現(xiàn)真實(shí)世界的盲臉修復(fù)
你是否有一些珍藏的舊照片,因?yàn)槟甏眠h(yuǎn)而畫質(zhì)模糊?不用擔(dān)心,有了盲臉修復(fù)技術(shù)(Blind Face Restoration),你的回憶會(huì)被歷久彌新。
這個(gè)全新且免費(fèi)的AI模型可以在一瞬間修復(fù)你的大部分舊照片。即使修復(fù)前的照片畫質(zhì)非常低,它也能很好地工作。這在之前通常是一個(gè)相當(dāng)大的挑戰(zhàn)。
更酷的是,你可以按照自己喜歡的方式進(jìn)行嘗試。他們已經(jīng)開源了代碼,創(chuàng)建了一個(gè)演示和在線應(yīng)用程序供大家試用。相信這項(xiàng)技術(shù)一定讓你大吃一驚!
論文鏈接:https://arxiv.org/abs/2101.04061
項(xiàng)目地址:https://github.com/TencentARC/GFPGAN
Colab Demo:https://colab.research.google.com/drive/1sVsoBd9AjckIXThgtZhGrHRfFI6UUYOo
在線應(yīng)用:https://huggingface.co/spaces/akhaliq/GFPGAN
視頻講解:https://youtu.be/nLDVtzcSeqM
短篇分析:https://www.louisbouchard.ai/gfp-gan/
4D-Net:多模態(tài)對(duì)齊的學(xué)習(xí)
自動(dòng)駕駛汽車如何「眼觀六路」?
你可能聽說過車企正在使用的LiDAR傳感器或其他奇怪的相機(jī)。但它們是如何工作的,它們?nèi)绾斡^察這個(gè)世界,以及它們與我們相比究竟看到了什么不同?
論文鏈接:https://arxiv.org/abs/2109.01066
與特斯拉只使用攝像頭來了解世界不同,大多數(shù)自動(dòng)駕駛汽車廠商,比如Waymo,使用的是普通攝像頭和3D LiDAR傳感器。
它們不會(huì)像普通相機(jī)那樣生成圖像,而是生成3D點(diǎn)云,利用RGB傳感信息,測(cè)量物體之間的距離,計(jì)算它們投射到物體的脈沖激光的傳播時(shí)間。
盡管如此,我們?nèi)绾斡行У亟Y(jié)合這些信息并讓車輛理解它?車輛最終會(huì)看到什么?自動(dòng)駕駛是否足夠安全?Waymo和谷歌的一篇新研究論文將會(huì)解答這些謎題。
視頻講解:https://youtu.be/0nJMnw1Ldks
短篇分析:https://www.louisbouchard.ai/waymo-lidar/
Instant NeRF:基于多分辨率哈希編碼的即時(shí)神經(jīng)圖元
如何通過照片模擬世界的樣子?
使用AI模型,人們可以將拍攝的圖像變成高質(zhì)量的3D模型。這項(xiàng)具有挑戰(zhàn)性的任務(wù),讓研究人員通過2D圖像,創(chuàng)建物體或人在三維世界中的樣子。
通過基于哈希編碼的神經(jīng)圖元(graphical primitives),英偉達(dá)實(shí)現(xiàn)5秒訓(xùn)練NeRF,并獲得了更好的效果。在不到兩年的研究中,將NeRF的訓(xùn)練速度提高了1000多倍。
論文鏈接:https://arxiv.org/abs/2201.05989
項(xiàng)目地址:https://github.com/NVlabs/instant-ngp
視頻講解:https://youtu.be/UHQZBQOVAIU
短篇分析:https://www.louisbouchard.ai/nvidia-photos-into-3d-scenes/
DALL·E 2:基于CLIP特征的文本生成圖像模型
去年,OpenAI發(fā)布了文本-圖像生成模型DALL·E?,F(xiàn)在,升級(jí)版DALL·E 2又來了。
DALL·E 2不僅可以從文本生成逼真的圖像,其輸出的分辨率是前者的四倍!
不過,性能方面的提升好像不足以令OpenAI滿足,為此他們還讓DALL·E 2學(xué)會(huì)了一項(xiàng)新技能:圖像修復(fù)。
也就是說,你可以用DALL·E 2編輯圖像,或者添加任何想要的新元素,比如在背景中加上一只火烈鳥。
論文鏈接:https://arxiv.org/abs/2204.06125
視頻講解:https://youtu.be/rdGVbPI42sA
短篇分析:https://www.louisbouchard.ai/openais-new-model-dall-e-2-is-amazing/
MyStyle:個(gè)性化生成先驗(yàn)
谷歌和特拉維夫大學(xué)提出了一個(gè)非常強(qiáng)大的DeepFake技術(shù)。擁有了它,你幾乎無所不能。
只需給一個(gè)人拍上百張照片,就可以對(duì)其圖像進(jìn)行編碼,并修復(fù)、編輯或創(chuàng)建出任何想要的樣子。
這既令人驚奇又令人恐懼,尤其是當(dāng)你看到生成的結(jié)果時(shí)。
論文鏈接:https://arxiv.org/abs/2203.17272
項(xiàng)目地址:https://mystyle-personalized-prior.github.io/
視頻講解:https://youtu.be/BNWAEvFfFvQ
短篇分析:https://www.louisbouchard.ai/mystyle/
OPT:開放預(yù)訓(xùn)練的Transformer語言模型
GPT-3如此強(qiáng)大的原因,在于其架構(gòu)和大小。
它有1750億個(gè)參數(shù),是人類大腦中神經(jīng)元數(shù)量的兩倍!如此巨大的神經(jīng)網(wǎng)絡(luò)使該模型幾乎學(xué)習(xí)了整個(gè)互聯(lián)網(wǎng)的內(nèi)容,了解我們?nèi)绾螘鴮?、交換和理解文本。
就在人們驚嘆于GPT-3的強(qiáng)大功能時(shí),Meta向開源社區(qū)邁出了一大步。他們發(fā)布了一個(gè)同樣強(qiáng)大的模型,并且,該模型已經(jīng)完全開源了!
該模型不僅也有超過千億級(jí)別的參數(shù),并且,與GPT-3相比,OPT-175B更加開放及便于訪問。
論文鏈接:https://arxiv.org/abs/2205.01068
項(xiàng)目地址:https://github.com/facebookresearch/metaseq
視頻鏈接:https://youtu.be/Ejg0OunCi9U
短篇分析:https://www.louisbouchard.ai/opt-meta/
BlobGAN:空間離散的場景表征
對(duì)于如何描述一個(gè)場景,Adobe研究團(tuán)隊(duì)給出了一個(gè)新的方法:BlobGAN。
BlobGAN使用「斑點(diǎn)」(blob)來描述場景中的對(duì)象。研究人員可以移動(dòng)這些斑點(diǎn),將它們變大、變小,甚至可以刪除,這對(duì)圖像中斑點(diǎn)所代表的物體都會(huì)產(chǎn)生同樣的效果。
正如作者在他們的結(jié)果中分享的那樣,你可以通過復(fù)制斑點(diǎn),在數(shù)據(jù)集中創(chuàng)建新的圖像。
現(xiàn)在,BlobGAN的代碼已經(jīng)開源,感興趣的小伙伴,抓緊快上手試試吧!
論文鏈接:https://arxiv.org/abs/2205.02837
項(xiàng)目地址:https://github.com/dave-epstein/blobgan
Colab Demo:https://colab.research.google.com/drive/1clvh28Yds5CvKsYYENGLS3iIIrlZK4xO?usp=sharing#scrollTo=0QuVIyVplOKu
視頻講解:https://youtu.be/mnEzjpiA_4E
短篇分析:https://www.louisbouchard.ai/blobgan/
Gato:通才智能體
DeepMind構(gòu)建了一個(gè)單一的「通用」智能體 Gato??梢酝?Atari 游戲、做字幕圖像、與人聊天、還能控制機(jī)械臂!
更令人震驚的是,它只訓(xùn)練一次并使用相同的權(quán)重,便能完成所有任務(wù)。
Gato是一個(gè)多模態(tài)智能體。這意味著它既可以為圖像創(chuàng)建標(biāo)題,也能作為聊天機(jī)器人回答問題。
雖然GPT-3也能陪你聊天,但很明顯,Gato可以做到更多。畢竟,能聊天的AI常有,能陪玩游戲的不常有。
論文鏈接:https://arxiv.org/abs/2205.06175
視頻講解:https://youtu.be/xZKSWNv6Esc
短篇分析:https://www.louisbouchard.ai/deepmind-gato/
Imagen:具有深度語言理解的文本到圖像的擴(kuò)散模型
如果你認(rèn)為DALL·E 2很優(yōu)秀,那么不妨看看這個(gè)來自Google Brain的新模型——Imagen——可以做些什么。
DALL·E很神奇,但生成的圖像往往缺乏真實(shí)感,這就是谷歌團(tuán)隊(duì)研發(fā)的Imagen所要解決的問題。
根據(jù)比較文本到圖像模型的基準(zhǔn),Imagen在大型語言模型的文本嵌入對(duì)文本-圖像的合成方面成效顯著。生成的圖像既天馬行空,又真實(shí)可信。
論文鏈接:https://arxiv.org/abs/2205.11487
項(xiàng)目地址:https://imagen.research.google/
視頻講解:https://youtu.be/qhtYPhPWCsI
短篇分析:https://www.louisbouchard.ai/google-brain-imagen/
DALL·E Mini
一組小扎的驚悚圖曾在Twitter上風(fēng)靡一陣。這組San值狂掉的作品,出自DALL·E mini之手。
作為DALL·E家族的「青春版」,DALL·E mini是勝在免費(fèi)開源。代碼已留,下一個(gè)被魔改的人物又會(huì)是誰呢?
項(xiàng)目地址:https://github.com/borisdayma/dalle-mini
在線體驗(yàn):https://huggingface.co/spaces/dalle-mini/dalle-mini
視頻講解:https://youtu.be/K3bZXXjW788
短篇分析:https://www.louisbouchard.ai/dalle-mini/
NLLB:不落下任何一種語言
Meta AI發(fā)布的這款NLLB-200模型,模型命名理念來自「不落下任何一種語言」(No Language Left Behind),在200多種語言上實(shí)現(xiàn)了任意互譯。
研究的亮點(diǎn)在于:研究者讓大多數(shù)低資源語言訓(xùn)練提升多個(gè)數(shù)量級(jí),同時(shí)實(shí)現(xiàn)了200+語言翻譯的SOTA結(jié)果。
論文鏈接:https://research.facebook.com/publications/no-language-left-behind/
項(xiàng)目地址:https://github.com/facebookresearch/fairseq/tree/nllb
在線體驗(yàn):https://nllb.metademolab.com/
視頻講解:https://youtu.be/2G4NeG17Eis
短篇分析:https://www.louisbouchard.ai/no-language-left-behind/
Dual-Shutter光學(xué)振動(dòng)傳感系統(tǒng)
聲音也能被看見?
這篇獲得CVPR 2022最佳論文榮譽(yù)獎(jiǎng)的研究,提出了一種新穎的Dual-Shutter方法,通過使用「慢速」相機(jī)(130FPS)同時(shí)檢測(cè)多個(gè)場景源的高速(高達(dá)63kHz)表面振動(dòng),并通過捕獲由音頻源引起的振動(dòng)來實(shí)現(xiàn)。
由此便可以實(shí)現(xiàn)樂器的分離、噪音的消除等各種需求。
論文鏈接:https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf
項(xiàng)目地址:https://imaging.cs.cmu.edu/vibration/
視頻講解:https://youtu.be/n1M8ZVspJcs
短篇分析:https://www.louisbouchard.ai/cvpr-2022-best-paper/
Make-A-Scene:基于場景且有人類先驗(yàn)的文本到圖像生成
Make-A-Scene不僅僅是「另一個(gè)DALL·E」。
雖然DALL·E可以根據(jù)文本提示生成隨機(jī)圖像,這確實(shí)很酷,但同時(shí)也限制了用戶對(duì)生成結(jié)果的控制。
而Meta的目標(biāo)是推動(dòng)創(chuàng)意表達(dá),將這種文本到圖像的趨勢(shì)與之前的草圖到圖像模型相結(jié)合,從而產(chǎn)生「Make-A-Scene」:文本和草圖條件圖像生成之間的奇妙融合。
論文鏈接:https://arxiv.org/abs/2203.13131
視頻講解:https://youtu.be/K3bZXXjW788
短篇分析:https://www.louisbouchard.ai/make-a-scene/
BANMo:從任意視頻中構(gòu)建目標(biāo)3D動(dòng)畫模型
基于Meta的這項(xiàng)研究,你只需給定捕獲可變形對(duì)象的任意視頻,比如上傳幾個(gè)小貓小狗的視頻,BANMo便可通過將來自數(shù)千張圖像的2D線索整合到規(guī)范空間中,進(jìn)而重建一個(gè)可編輯的動(dòng)畫3D模型,且無需預(yù)定義形狀模板。
論文鏈接:https://arxiv.org/abs/2112.12761
項(xiàng)目地址:https://github.com/facebookresearch/banmo
視頻講解:https://youtu.be/jDTy-liFoCQ
短篇分析:https://www.louisbouchard.ai/banmo/
用潛在擴(kuò)散模型進(jìn)行高分辨率圖像合成
今年大火的圖像生成模型DALL·E、Imagen以及強(qiáng)勢(shì)出圈的Stable Diffusion,這些強(qiáng)大的圖像生成模型有什么共同點(diǎn)?除了高計(jì)算成本、大量訓(xùn)練時(shí)間之外,它們都基于相同的擴(kuò)散機(jī)制。
擴(kuò)散模型最近在大多數(shù)圖像任務(wù)中取得了SOTA結(jié)果,包括使用DALL·E的文本到圖像,還有許多其他與圖像生成相關(guān)的任務(wù),如圖像修復(fù)、風(fēng)格轉(zhuǎn)換或圖像超分辨率。
論文鏈接:https://arxiv.org/abs/2112.10752
項(xiàng)目地址:https://github.com/CompVis/latent-diffusion
視頻講解:https://youtu.be/RGBNdD3Wn-g
短篇分析:https://www.louisbouchard.ai/latent-diffusion-models/
PSG:基于場景的圖像生成模型
AI可以幫你準(zhǔn)確識(shí)別圖像中的物體,但是理解物體與環(huán)境之間的關(guān)系則沒有那么輕松。
為此,來自南洋理工對(duì)研究人員提出了一種基于全景分割的全場景圖生成(panoptic scene graph generation,即PSG)任務(wù)。
相比于傳統(tǒng)基于檢測(cè)框的場景圖生成,PSG任務(wù)要求全面地輸出圖像中的所有關(guān)系(包括物體與物體間關(guān)系,物體與背景間關(guān)系,背景與背景間關(guān)系),并用準(zhǔn)確的分割塊來定位物體。
論文鏈接:https://arxiv.org/abs/2207.11247
項(xiàng)目地址:https://psgdataset.org/
在線應(yīng)用:https://huggingface.co/spaces/ECCV2022/PSG
視頻講解:https://youtu.be/cSsE_H_0Cr8
短篇分析:https://www.louisbouchard.ai/psg/
利用文本反轉(zhuǎn)實(shí)現(xiàn)文本到圖像的個(gè)性化生成
今年各大廠的圖像生成模型可謂是八仙過海各顯神通,但是如何讓模型生成特定風(fēng)格的圖像作品呢?
來自特拉維夫大學(xué)的學(xué)者和英偉達(dá)合作推出了一款個(gè)性化圖像生成模型,可以DIY你想要得到的圖像。
論文鏈接:https://arxiv.org/abs/2208.01618
項(xiàng)目地址:https://textual-inversion.github.io/
視頻講解:https://youtu.be/f3oXa7_SYek
短篇分析:https://www.louisbouchard.ai/imageworthoneword/
用于通用視頻識(shí)別的語言圖像預(yù)訓(xùn)練模型
視覺文本模型的學(xué)習(xí)毫無疑問已經(jīng)取得了巨大成功,然而如何將這種新的語言圖像預(yù)訓(xùn)練方法擴(kuò)展到視頻領(lǐng)域仍然是一個(gè)懸而未決的問題。
來自微軟和中科院的學(xué)者提出了一種簡單而有效的方法使預(yù)訓(xùn)練的語言圖像模型直接適應(yīng)視頻識(shí)別,而不是從頭開始預(yù)訓(xùn)練新模型。
論文鏈接:https://arxiv.org/abs/2208.02816
項(xiàng)目地址:https://github.com/microsoft/VideoX/tree/master/X-CLIP
視頻講解:https://youtu.be/seb4lmVPEe8
短篇分析:https://www.louisbouchard.ai/general-video-recognition/
Make-A-Video:一鍵文本生成視頻模型
畫家在畫布上盡情作畫,如此清晰流暢的畫面,你能想到視頻的每一幀都是AI生成的嗎?
MetaAI推出的Make-A-Video,只需簡單輸入幾個(gè)文字,便可在幾秒內(nèi)生成不同風(fēng)格的視頻,說成「視頻版DALL·E」也不為過。
論文鏈接:https://arxiv.org/abs/2209.14792
視頻講解:https://youtu.be/MWwESVyHWto
短篇分析:https://www.louisbouchard.ai/make-a-video/
Whisper:大規(guī)模弱監(jiān)督語音識(shí)別模型
你有沒有想過有一個(gè)翻譯軟件可以快速翻譯視頻中的語音,甚至是那些你自己都聽不懂的語言?
OpenAI開源的Whisper恰好就能做到這一點(diǎn)。
Whisper在超過68萬小時(shí)的多語種數(shù)據(jù)上訓(xùn)練,能識(shí)別嘈雜背景下的多語種聲音并轉(zhuǎn)化為文字,此外還可勝任專業(yè)術(shù)語的翻譯。
論文鏈接:https://arxiv.org/abs/2212.04356
項(xiàng)目地址:https://github.com/openai/whisper
視頻講解:https://youtu.be/uFOkMme19Zs
短篇解析:https://www.louisbouchard.ai/whisper/
DreamFusion:用2D圖像生成3D模型
文本能生成圖像、視頻,還有3D模型~
谷歌推出的DreamFusion通過使用預(yù)訓(xùn)練的2D文本到圖像擴(kuò)散模型可一鍵生成3D模型,在數(shù)十億圖像文本對(duì)上訓(xùn)練的擴(kuò)散模型推動(dòng)了文本到3D模型合成的最新突破。
論文鏈接:https://arxiv.org/abs/2209.14988
視頻講解:https://youtu.be/epuU0VRIcjE
短篇解析:https://www.louisbouchard.ai/dreamfusion/
Imagic:基于擴(kuò)散模型的真實(shí)圖像編輯方法
使用DALL·E等文本圖像生成模型,只需輸入一行文字便能得到想要的圖片,但AI生成的圖像有時(shí)候并不那么完美。
來自谷歌、以色列理工學(xué)院、魏茨曼科學(xué)研究所的研究者介紹了一種基于擴(kuò)散模型的真實(shí)圖像編輯方法——Imagic,只用文字就能實(shí)現(xiàn)真實(shí)照片的PS。
例如,我們可以改變一個(gè)人的姿勢(shì)和構(gòu)圖同時(shí)保留其原始特征,或者我想讓一只站立的狗坐下,讓一只鳥展開翅膀。
論文鏈接:https://arxiv.org/abs/2210.09276
項(xiàng)目地址:https://imagic-editing.github.io/
視頻講解:https://youtu.be/gbpPQ5kVJhM
短篇分析:https://www.louisbouchard.ai/imagic/
eDiffi:更高品質(zhì)的文本圖像合成模型
比DALL·E和Stable Diffusion更強(qiáng)的圖像合成模型來了!
這就是英偉達(dá)的eDiffi,它可以更準(zhǔn)確地生成更高品質(zhì)的圖像,此外加入畫筆模具,可以為你的作品增加更多創(chuàng)造性和靈活性。
論文鏈接:https://arxiv.org/abs/2211.01324
項(xiàng)目地址:https://deepimagination.cc/eDiff-I/
視頻講解:https://youtu.be/grwp-ht_ixo
短篇分析:https://www.louisbouchard.ai/ediffi/
Infinite Nature:從單幅圖像中學(xué)習(xí)自然場景的無限視圖生成
你有沒有想過,隨手拍一張照片然后就像打開一扇門一樣飛進(jìn)圖片里呢?
來自谷歌和康奈爾大學(xué)的學(xué)者將這一想象變?yōu)榱爽F(xiàn)實(shí),這就是InfiniteNature-Zero,他可從單幅圖像中生成無限制的自然場景視圖。
論文鏈接:https://arxiv.org/abs/2207.11148
項(xiàng)目地址:https://infinite-nature.github.io/
視頻講解:https://youtu.be/FQzGhukV-l0
短篇分析:https://www.louisbouchard.ai/infinitenature-zero
Galactica:用于科學(xué)的大語言模型
Meta開發(fā)的Galactica是一種大型語言模型,其大小與 GPT-3 相當(dāng),但它擅長的領(lǐng)域是科學(xué)知識(shí)。
該模型可編寫政府白皮書、新聞評(píng)論、維基百科頁面和代碼,它還知道如何引用以及如何編寫方程式。這對(duì)人工智能和科學(xué)來說是一件大事。
論文鏈接:https://arxiv.org/abs/2211.09085
視頻講解:https://youtu.be/2GfxkCWWzLU
短篇分析:https://www.louisbouchard.ai/galactica/
RAD-NeRF:基于音頻空間分解的實(shí)時(shí)人像合成模型
自從DeepFake和NeRF的出現(xiàn),AI換臉?biāo)坪跻呀?jīng)是司空見慣了,但有個(gè)問題,AI換的臉有時(shí)會(huì)因?yàn)閷?duì)不上嘴型而露餡。
RAD-NeRF的出現(xiàn)可以解決這一問題,它可以對(duì)視頻中所出現(xiàn)的說話者進(jìn)行實(shí)時(shí)的人像合成,此外還支持自定義頭像。
論文鏈接:https://arxiv.org/abs/2211.12368
項(xiàng)目地址:https://me.kiui.moe/radnerf/
視頻講解:https://youtu.be/JUqnLN6Q4B0
短篇分析:https://www.louisbouchard.ai/rad-nerf/
ChatGPT:為對(duì)話優(yōu)化的語言模型
2022年度AI的重磅作品怎么能少了ChatGPT,這個(gè)已經(jīng)火遍全網(wǎng)并已經(jīng)被網(wǎng)友開發(fā)出寫小黃文、敲代碼等各種應(yīng)用的萬能模型,如果你還不了解它,那就快來看看!
視頻講解:https://youtu.be/AsFgn8vU-tQ
短篇分析:https://www.louisbouchard.ai/chatgpt/
可直接用于生產(chǎn)使用的視頻人臉re-aging
雖然當(dāng)下計(jì)算機(jī)視覺模型可以對(duì)人臉的年齡進(jìn)行生成、風(fēng)格遷移等,但這也只是看起來炫酷,在實(shí)際應(yīng)用中卻幾乎零作用,現(xiàn)有的技術(shù)通常存在著面部特征丟失、分辨率低和在后續(xù)視頻幀中結(jié)果不穩(wěn)定的問題,往往需要人工二次編輯。
最近迪士尼發(fā)布了第一個(gè)可實(shí)用的、完全自動(dòng)化的、可用于生產(chǎn)使用的視頻圖像中re-age人臉的方法FRAN(Face Re-Aging Network),正式宣告電影中靠化妝師改變演員年齡視覺效果的技術(shù)落幕。
論文鏈接:https://dl.acm.org/doi/pdf/10.1145/3550454.3555520
項(xiàng)目地址:https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/
視頻講解:https://youtu.be/WC03N0NFfwk
短篇分析:https://www.louisbouchard.ai/disney-re-age/