大模型卷爆數(shù)字人:一句話(huà)5分鐘實(shí)現(xiàn)定制,跳舞主持帶貨都能hold住 精華
最快5分鐘,打造一個(gè)直接上崗工作的3D數(shù)字人。
這是大模型給數(shù)字人領(lǐng)域帶來(lái)的最新震撼。
就像這樣,一句話(huà)描述需求:
生成的數(shù)字人直接就能進(jìn)駐直播間當(dāng)主播。
跳起女團(tuán)舞也不在話(huà)下。
整個(gè)制作過(guò)程中,想到什么說(shuō)什么就行,大模型都能自動(dòng)拆解需求,瞬間get設(shè)計(jì)、修改思路。
再也不怕老板/甲方的想法太新奇。
這樣的文生數(shù)字人技術(shù),來(lái)自百度智能云最新發(fā)布。該說(shuō)不說(shuō),是要把數(shù)字人的使用門(mén)檻一口氣砍沒(méi)的節(jié)奏了。
聽(tīng)聞如此神器,我們照例第一時(shí)間爭(zhēng)取到了內(nèi)測(cè)資格,更多細(xì)節(jié),一起先睹為快~
一句話(huà)5分鐘,3D數(shù)字人直接上崗
從Chatbot到文生圖片,再到文生視頻,大模型帶來(lái)的交互方式的變革,已經(jīng)無(wú)需贅言。
現(xiàn)在,在百度智能云曦靈平臺(tái)上,基于文心一言4.0,數(shù)字人定制這件事,同樣能通過(guò)自然語(yǔ)言對(duì)話(huà)的形式實(shí)現(xiàn)。
舉個(gè)例子,生成一個(gè)品牌代言人,需要幾步?
首先,輸入“生成一個(gè)百度智能云品牌代言人”這樣的提示詞,同時(shí)上傳logo圖片。
大模型就會(huì)自動(dòng)從臉型、發(fā)型、妝容、服裝、配飾等多個(gè)維度,開(kāi)始一步一步思考:
自動(dòng)打造出符合要求的數(shù)字人。
如果需要調(diào)整細(xì)節(jié),一樣“說(shuō)話(huà)”就能完成。
也就5-10分鐘,一個(gè)360°無(wú)死角的高質(zhì)量數(shù)字人就基本成型了。
捏臉完畢,下一步就是給數(shù)字人綁上表情,讓Ta能動(dòng)起來(lái)。同樣只需要一鍵操作,等待1-2分鐘。
相比于過(guò)去高精度3D數(shù)字人好幾天、甚至好幾個(gè)月的定制周期,這個(gè)分鐘級(jí)的效率,確實(shí)稱(chēng)得上是“顛覆”了。
值得一提的是,效率如此大幅提升的前提下,這樣的文生數(shù)字人細(xì)節(jié)質(zhì)量依然保持著高水準(zhǔn)。
表情細(xì)節(jié):
動(dòng)作質(zhì)量:
結(jié)合百度智能云在數(shù)字人領(lǐng)域的長(zhǎng)期積累,上崗播新聞、直播帶貨都不在話(huà)下。
數(shù)字人技術(shù)全面AI化
效率和落地能力的直觀提升之外,此次百度智能云推出的文生數(shù)字人方案背后,不少技術(shù)細(xì)節(jié)也值得好好說(shuō)道說(shuō)道。
正如前文所說(shuō),其技術(shù)基座,正是文心一言4.0.
而起到關(guān)鍵作用的大模型能力包括:
- 自動(dòng)拆解要做的任務(wù)和子任務(wù)
- 顯示思考過(guò)程,做到有理有據(jù),讓整個(gè)生成過(guò)程“白盒化”
- 實(shí)現(xiàn)了基于內(nèi)容提煉的短期記憶,可以通過(guò)對(duì)話(huà)持續(xù)調(diào)整數(shù)字人形象
這樣一來(lái),大模型就成了一個(gè)能懂人類(lèi)甲方心理的數(shù)字人造型助理,可以模仿人類(lèi)思路,去摳數(shù)字人定制的每一個(gè)細(xì)節(jié),并且做到過(guò)程可控。
同時(shí),大模型還在背后施展出了調(diào)用工具的能力。
比如,調(diào)用涵蓋6000+維度的臉型及五官細(xì)節(jié)“知識(shí)庫(kù)”,整體調(diào)整數(shù)字人面容。
大模型技術(shù)之外,百度智能云還在曦靈平臺(tái)中加入了新的AI渲染技術(shù),支持AI驅(qū)動(dòng)、AI布料模擬,讓數(shù)字人的表情肢體動(dòng)作更自然,服裝面料質(zhì)感更真實(shí)。包括:
- 動(dòng)態(tài)褶皺貼圖,讓紋理更加真實(shí)。
- 分鐘級(jí)4D自動(dòng)綁定,讓眼睛、嘴唇等部位能夠完美閉合,并支持表情風(fēng)格切換。
- 肢體肌肉擠壓、碰撞實(shí)時(shí)模擬。
- ……
官方還透露,接下來(lái),百度智能云計(jì)劃實(shí)現(xiàn)角色、行為、場(chǎng)景、燈光、鏡頭要素的全面AI化。
數(shù)字人,步入大模型時(shí)代應(yīng)用新范式
如果說(shuō)去年大家還在熱火朝天地討論基礎(chǔ)模型,那么今年以來(lái)由Sora而起,大模型帶來(lái)的應(yīng)用范式的變革,已經(jīng)成為科技圈新的熱議焦點(diǎn)。
在交互方式的改變之上,核心受到關(guān)注的,其實(shí)還是效率提升:
輸出創(chuàng)意,生成所需,大模型正在讓越來(lái)越多本來(lái)需要消耗大量時(shí)間、人力、金錢(qián)的工作,變得簡(jiǎn)單、高效、人人可用。
現(xiàn)在,百度智能云在3D數(shù)字人領(lǐng)域的最新技術(shù)進(jìn)展,就是這種可能性在人們更為熟知的圖像、視頻領(lǐng)域之外,拓展開(kāi)來(lái)的一個(gè)代表。
可以預(yù)見(jiàn)的是,過(guò)去更多在大企業(yè)、大機(jī)構(gòu)中被使用的數(shù)字人員工,在新范式的驅(qū)動(dòng)之下,步入“尋常百姓家”正在成為可能。
此前,清華大學(xué)《虛擬數(shù)字人研究報(bào)告2.0版》數(shù)據(jù)顯示,從頭部企業(yè)的布局來(lái)看,面向B端的數(shù)字人產(chǎn)品服務(wù)是市場(chǎng)的主要組成部分,占比達(dá)到79%。
而隨著大模型技術(shù)對(duì)數(shù)字人應(yīng)用模式的顛覆,不僅中小企業(yè)不用再對(duì)6位數(shù)的3D高精度數(shù)字人望而卻步,C端的應(yīng)用也將得以拓展。
這也就意味著,數(shù)字人的應(yīng)用和商業(yè)化,已經(jīng)翻開(kāi)新的一頁(yè)。
最后,如果你還對(duì)哪些大模型新應(yīng)用感興趣,歡迎留言,我們速速測(cè)起~
本文轉(zhuǎn)自 量子位 ,作者:量子位
