小扎元宇宙1小時(shí)「真人對(duì)談」載入史冊(cè)!13個(gè)月超進(jìn)化,表情模擬2.0,連頭發(fā)絲都根根分明
起猛了!
就在昨天,美國知名播客主播Lex Fridman與小扎開啟了1個(gè)小時(shí)的元宇宙「面對(duì)面」聊天,震驚了全世界。
Lex Fridman聊著聊著,直言「我差點(diǎn)忘記,眼前的你不是真人」。
圖片
他們戴上Meta的頭顯,相隔數(shù)百公里,卻能如此逼真還原Aavtar的面部表情和動(dòng)作。
而這背后,是19年Meta提出的一個(gè)輕松創(chuàng)建虛擬人化身的技術(shù)Codec Avatars,只需要一部手機(jī),就能捕捉人類細(xì)微的表情差異。
有網(wǎng)友表示,別說人家聊的身臨其境,就連自己看的太投入,9分鐘的時(shí)候,恍然間覺得他們就是真人在對(duì)話!
甚至讓前谷歌科學(xué)家David Ha改變了對(duì)「元宇宙」懷疑的態(tài)度。
大約13個(gè)月的時(shí)間,小扎對(duì)于元宇宙的「真愛」似乎開始要有回報(bào)了。
從2021年到現(xiàn)在,Meta元宇宙實(shí)驗(yàn)室投入數(shù)百億美元都賠了本,但是也終讓人們看到了「頭號(hào)玩家」里的世界離我們更近一步。
接下來,一起看看小扎和Lex虛擬化身對(duì)談的精彩瞬間吧。
訪談實(shí)錄
一出場(chǎng),F(xiàn)ridman和小扎的訪談就在元宇宙中開始了。
雖然一個(gè)人在加州,一個(gè)人在德州奧斯丁,通過Codec Avatar和3D立體聲技術(shù),兩個(gè)人就像直接面對(duì)面坐在一起一樣,開始了這場(chǎng)可能會(huì)載入史冊(cè)的會(huì)面和聊天。
Fridman調(diào)整了一下光源的位置,兩個(gè)人都明顯感到了光線的變化。
而兩個(gè)人周圍的其他的地方,都是漆黑一片。
看著對(duì)方清晰的臉和生動(dòng)的表情,真的覺得這一切就發(fā)生在了一個(gè)關(guān)了燈的房間里。
而Fridman最直觀的感受是,這一切實(shí)在是太真實(shí)了,真實(shí)得讓人有點(diǎn)接受不了。
在這樣的一個(gè)環(huán)境之下,長(zhǎng)達(dá)一個(gè)小時(shí)的訪談開始了。
訪談涉及了小扎對(duì)于元宇宙的暢想,以及什么是「真實(shí)」的討論,而最令大家關(guān)注的,應(yīng)該還是小扎對(duì)于AI和元宇宙結(jié)合前景的看法,以及他對(duì)Meta AI未來的計(jì)劃。
三年全身模擬就來
在小扎看來,未來 AI 技術(shù)將會(huì)在元宇宙中扮演非常重要的角色。
未來肯定會(huì)有非常強(qiáng)大的超級(jí)人工智能,但是依然會(huì)有很多AI工具能讓人們非常方便的完成各種各樣的任務(wù)。
他以Fridman的播客節(jié)目舉例,播客主播需要盡可能的保持和自己的社區(qū)觀眾的互動(dòng)。但是主播不可能 24 小時(shí)不休息地來做這個(gè)事。
如果能夠在元宇宙中建立一個(gè)AI來幫助主播來維持自己粉絲社區(qū)的活力,滿足粉絲們提出的各種要求,將會(huì)讓主播能完成以前可能完全沒有辦法完成的事情。
而且Meta希望這樣的AI不僅僅是出現(xiàn)在元宇宙中,而是在現(xiàn)在已經(jīng)有的各種平臺(tái)上,來幫主播、
網(wǎng)紅們維護(hù)自己的粉絲、用戶社區(qū)。
Meta未來會(huì)盡快發(fā)布這個(gè)功能,賦能更多的內(nèi)容創(chuàng)作者。
進(jìn)一步地,Meta AI會(huì)更多地出現(xiàn)在元宇宙的各個(gè)地方,和用戶進(jìn)行交流,為用戶提供幫助。
不同的AI角色在元宇宙中會(huì)以不同的性格展現(xiàn)出來,為用戶提供非常豐富多樣的體驗(yàn)。
而現(xiàn)在這些不同角色的AI已經(jīng)處于最后的準(zhǔn)備階段了。Meta希望能讓這些AI更加可預(yù)測(cè),保障安全性。
除了讓普通用戶在元宇宙中的體驗(yàn)更好,AI可以在元宇宙中為企業(yè),或者代表企業(yè)向客戶提供各種各樣嚴(yán)肅專業(yè)的服務(wù)。
在元宇宙的游戲中,AI能讓NPC表現(xiàn)得更加吸引人。他們一個(gè)正在開發(fā)的類似劇本殺的史努比游戲,AI作為游戲的主持人表現(xiàn)非常好,非常搞笑,很有意思。
Llama 3在路上
Fridman繼續(xù)問了小扎關(guān)于Meta AI目前的一些情況,關(guān)于Llama 2和未來的Llama 3,小扎也知無不言,不斷爆料。
在上一次和Fridman的播客中,小扎和他討論了關(guān)于是否開源Llama 2,小扎很高興Meta最終這么做了。
在小扎看來,現(xiàn)在開源一個(gè)Llama 2這樣的基礎(chǔ)模型的價(jià)值,遠(yuǎn)遠(yuǎn)大于風(fēng)險(xiǎn)。
小扎說在開源之前,Meta花了很多時(shí)間,進(jìn)行了非常嚴(yán)格的評(píng)估和紅隊(duì)模擬,最終才開源了它。Llama 2的下載和使用量比小扎預(yù)期的還要多。
Llama 3呢,肯定會(huì)有的。不過在開源Llama 2后,現(xiàn)在Meta的優(yōu)先事項(xiàng)是將其集成到各種消費(fèi)者產(chǎn)品中。
因?yàn)長(zhǎng)lama 2本身并不是一個(gè)消費(fèi)者產(chǎn)品。它更像是一個(gè)基礎(chǔ)設(shè)施,人們可以用它來構(gòu)建東西。所以,現(xiàn)在的重點(diǎn)是繼續(xù)微調(diào),并且,就是讓Llama 2及以及各個(gè)版本能夠服務(wù)好消費(fèi)者產(chǎn)品。
希望有一天數(shù)以億計(jì)的人會(huì)喜歡使用這些產(chǎn)品。
但是,Meta也在致力于開發(fā)未來的基礎(chǔ)模型?,F(xiàn)在沒有太多能透露的,不過肯定也會(huì)像Llama 2一樣,經(jīng)歷嚴(yán)格的紅隊(duì)測(cè)試才會(huì)公布。
小扎也希望,當(dāng)Llama 3成型時(shí),Meta會(huì)繼續(xù)開源。但是,這個(gè)事Meta還沒有最終確定下來,因?yàn)楝F(xiàn)在離Meta發(fā)布下一代基礎(chǔ)模型還比較遙遠(yuǎn)。
不過開源模型能夠讓人們更好地體驗(yàn)?zāi)P湍茏鍪裁词虑?,比如小扎本人就很沉迷于和各種各樣的AI虛擬角色聊天,非常上頭。
人類未來生活
對(duì)于未來人類的生活,小扎說,元宇宙會(huì)無處不在!
最簡(jiǎn)單的例子就是電話,未來人類會(huì)像現(xiàn)在打電話一樣,體驗(yàn)到自己和虛擬世界的真實(shí)互動(dòng)。
比如兩個(gè)人可以隨時(shí)隨地體驗(yàn)他們兩現(xiàn)在的交流方式,除了兩個(gè)沒有真的坐在一間屋子里,其他方面這樣的交流會(huì)和面對(duì)面的交流沒有任何區(qū)別。
因?yàn)閺恼軐W(xué)的角度來看,真實(shí)世界的本質(zhì)就是我們能夠感知到的東西和實(shí)際存在的東西的結(jié)合。
數(shù)字世界如果能夠越來越好的還原這個(gè)方面,數(shù)字世界就能變得越來越豐富和強(qiáng)大。
最后,F(xiàn)ridman問小扎,你該不會(huì)是坐在沙灘上和我聊的吧。
小扎說,沒有,我坐在會(huì)議室里。
Fridman說,可惜了,我就坐在沙灘上,而且我褲子都沒穿,幸好你們沒看到我真實(shí)的樣子。
Codec Avatars:一部手機(jī),化身就來
其實(shí),我們看到博客視頻中,如此驚艷的技術(shù),其實(shí)Meta早在19年就研發(fā)出來了。
它就是——Codec Avatars。
若想在元宇宙中實(shí)現(xiàn)真正的交互,虛擬化身可是打開元宇宙這道門的任督二脈。
Codec Avatars這一項(xiàng)目旨在實(shí)現(xiàn)一個(gè)能夠捕獲和表示用于XR的逼真頭像的系統(tǒng)。
最初這個(gè)項(xiàng)目是以高質(zhì)量的頭像演示開始,后來逐漸實(shí)現(xiàn)構(gòu)建全身的虛擬化身。
在Connect 2021大會(huì)上,研究人員Yaser Sheikh曾展示了該團(tuán)隊(duì)最新的成果——全身視頻編解碼器(Full-body Codec Avatars)。
與此同時(shí),Codec Avatars支持更復(fù)雜的眼部運(yùn)動(dòng)、面部表情、手部和身體姿勢(shì)。
此外,Meta還展示了虛擬化身在對(duì)不同的光照條件和環(huán)境下實(shí)現(xiàn)頭發(fā)和皮膚的真實(shí)渲染。
Meta開始制作Codec Avatars的契機(jī)要追溯到9年前。
2014年,卡內(nèi)基梅隆大學(xué)機(jī)器人研究所旗下的一家3D捕捉實(shí)驗(yàn)室Panoptic Studio的負(fù)責(zé)人Yaser Sheikh遇到了Oculus首席科學(xué)家Michael Abrash,兩人聊得非常投機(jī)。
左:Michael Abrash;右:Yaser Sheikh
2015年,Yaser Sheikh加入了Meta,從那以后便一直領(lǐng)導(dǎo)著Codec Avatars研究團(tuán)隊(duì)。
「要想打造一個(gè)逼真的化身,基礎(chǔ)在于測(cè)量」,Codec Avatars研究科學(xué)家托馬斯·西蒙說。
「化身要以假亂真靠的是精確的數(shù)據(jù),這需要良好的測(cè)量。因此,構(gòu)建真實(shí)化身的關(guān)鍵是找到一種方法來測(cè)量人類表情中的物理細(xì)節(jié),比如一個(gè)人瞇起眼睛或皺起鼻子的方式?!?/span>
在匹茲堡實(shí)驗(yàn)室的Codec Avatars團(tuán)隊(duì),使用了兩個(gè)主要的模塊來測(cè)量人類的表情:編碼器和解碼器。
而現(xiàn)在,人們只需要一部手機(jī),就能精確捕捉到面部表情的信息。
直接在元宇宙中還原真身。
網(wǎng)友驚呼:恐怖谷
看過這期博客的網(wǎng)友們,紛紛被視頻中的效果驚艷。
英偉達(dá)高級(jí)科學(xué)家Jim Fan表示,
本期 @lexfridman 將作為第一個(gè)由虛擬化身的視頻會(huì)議制作的播客載入史冊(cè)。
在未來3-5年內(nèi),我們將徹底跨越Avatar和模擬的「恐怖谷」。
在我的職業(yè)生涯中,我一直在研究化身智能體。我們的終極愿景是實(shí)現(xiàn)場(chǎng)景:人類和人工智能的全身實(shí)時(shí)化身,共享同一個(gè)虛擬空間,以逼真的方式與物體互動(dòng),接收豐富的多模態(tài)反饋,忘記世界只是一個(gè)模擬。
雖然化身現(xiàn)在需要用特殊設(shè)備進(jìn)行掃描,但扎克暗示,智能手機(jī)自拍視頻很快就能實(shí)現(xiàn)。
鑒于3D生成模型的最新進(jìn)展,我認(rèn)為幾個(gè)月內(nèi)就能實(shí)現(xiàn)。細(xì)粒度手指追蹤和全身追蹤將是下一個(gè)目標(biāo)。
從3個(gè)像素的頭像怎么一下就進(jìn)化到這個(gè)了?一定是我起猛了!
去年Meta在廣告和市場(chǎng)營(yíng)銷上花了26億美元,這個(gè)播客的效果比這些錢效果好多了,Lex趕快讓小扎給你打錢!
雖然眼球追蹤還有些小錯(cuò)誤,但是表情的精準(zhǔn)呈現(xiàn)讓人忘了這其實(shí)只是虛擬化身。未來已來!
怪不得馬斯克找不到小扎,原來小扎躲到這里了!
最后,訪談原視頻放在這里了。