?【51CTO.com原創(chuàng)稿件】過去一年來,元宇宙成為企業(yè)和投資界和投資人共同關注的話題。對于元宇宙,各界人士都有自己的理解和關注點,在日前51CTO主辦的MetaCon元宇宙技術大會上,商湯科技數(shù)字空間事業(yè)群數(shù)字文娛事業(yè)部產(chǎn)品總監(jiān)高瑞聲帶來了主題演講《元宇宙虛實世界的人工智能技術》,分別從市場和資本關注元宇宙的目的、元宇宙本身的市場布局以及核心的技術、打造數(shù)字人以及數(shù)字人典型的應用場景和案例等角度來談元宇宙。
高瑞聲認為,數(shù)字人其實可以定義為一個未來世界的超級員工,由于數(shù)字人能夠擁有人的外觀、人的肢體語言行為、人的大腦,因而代替部分的人力,甚至超過真人所能做的事情和能力,這樣就可以為企業(yè)節(jié)省人力資源成本,降本增效,同時助力城市的數(shù)字化轉型。
本文摘選并整理了其中的精彩內(nèi)容,希望可以給大家?guī)硭季S的啟迪。
一、AI引擎層的作用
構建虛擬的平行世界,即元宇宙Metaverse,是人類一直以來的夢想,它主要有三個核心元素來組成。第一個是虛擬化身(Avatar),第二個是AI數(shù)字人(Software Agents),第三個是物理空間的三維重建(Three-Dimensional Space)。這三個核心元素組成了Metaverse元宇宙。
市場關注元宇宙主要有兩方面原因。首先是從PC端互聯(lián)網(wǎng)到移動端的互聯(lián)網(wǎng),流量逐漸趨于枯竭,我們希望能夠從下一代比如說元宇宙挖掘到新的流量紅利。其次是技術在不斷驅動和發(fā)展,信息從最開始的一維,比如文本、語音,到后來的二維平面,比如圖像、音視頻,再到三維,比如音視頻空間,用腦機接口實現(xiàn)的五感真實等。
從上面兩點可以得出,以三維全景為主要信息形態(tài)的元宇宙,就要成為我們一個新的產(chǎn)業(yè)趨勢。
元宇宙的系統(tǒng)分層主要有這幾層:基礎設施層、顯示硬件層、OS層、3D引擎層和應用層。
有很多公司客戶希望能做元宇宙的一些應用,比如說社交應用、辦公協(xié)作等,但是他們會遇到一個非專業(yè)內(nèi)容制作的挑戰(zhàn)。要解決這個挑戰(zhàn),就涉及到AI的引擎層,也是商湯科技的定位。
怎么理解AI這個引擎層呢?可以從人腦和AI的關系來說起。人腦能做到什么呢?
一是能理解,包括對人物的認知和理解、對場景的認知和理解。
二是內(nèi)容生成。平常做夢能夢到一些我們腦海里的人物和場景,這就是內(nèi)容生成。一些優(yōu)秀的畫家,能畫出來自己腦海中的人物和場景。
相應地,AI引擎層能為人物生成的數(shù)字人生成引擎,其能力主要分為這三個能力。
一是讓人輕松地擁有數(shù)字人。例如,利用拍照生成的能力,可以快速生成千人千面的虛擬形象。比如說韓式動漫的風格,二次元風格以及3D超寫實風格。
二是我們用AI去打造這種成熟的NPC群體,例如AI數(shù)字人。數(shù)字人主要有三方面的特征,首先,它有人的外貌特征,比如她是一個美麗大方可愛的小姐姐。同時它有人的面部表情和肢體語言、動作、行為這樣的特征。其次,它有人的大腦,就是我們的多模態(tài)的人機交互NLP,它可以通過輸入外界的環(huán)境信息,在NLP大腦中進行處理,與人進行交互,與人進行溝通、交流,為人提供服務。能夠部分或者全部替代人力成本,助力于城市企業(yè)去發(fā)展進行數(shù)字化轉型。
三是三維高清的重建技術,可以快速地去重建三維的數(shù)字空間。
有這三個能力我們就可以形成并打造數(shù)字世界的智慧解決方案,構建城市不同場景的虛擬的元宇宙空間,在這個虛擬的空間內(nèi),人們可以跟朋友、家人、同事一起去跨越這種時空,跨越這種距離,來進行面對面的沉浸式的溝通、交流和體驗。
人們可以體驗在哪些方面呢?可以有這幾個步驟。
第一步是虛擬人物快速生成。如果城市希望吸引年輕人,可以讓年輕人自拍,一鍵生成專屬卡通風格的形象,比如韓式的動漫風格或者日式的動漫風格。人們可以用這個虛擬形象開啟一段虛實融合的新的旅途。
第二步是實景三維高精重建內(nèi)容的快速生成。人們可以用一個無人機飛一圈,快速重建一個三維高精的場景。同時還可以跟合作團隊一起去重建高精的三維空間。
第三步就可以用之前建好的虛擬分身一起在虛擬的空間內(nèi)看看這個城市的風景,比如說廈門、鼓浪嶼。
這個國外像Facebook等公司已經(jīng)做了,比如說Facebook的Oculus里邊的Horizon Worlds,里面就是重建了洛杉磯、舊金山,大家一起去構建這個城市地標的虛擬的元宇宙空間,可以讓用戶去跨越距離,去體驗城市的美。
第二個場景是虛擬的政務大廳、企業(yè)大廳,比如運營商的網(wǎng)點、銀行的線下網(wǎng)點等。企業(yè)可以創(chuàng)造一個聰明的數(shù)字人,它可以為用戶去提供便捷服務,比如說迎賓、業(yè)務咨詢、信息展示、業(yè)務辦理,從而讓群眾足不出戶就可以高效地辦理業(yè)務。
第三個場景是虛擬展會。展會不能用視頻的會議軟件去看,而虛擬展會可以全景的展示。在國外,比如在Oculus里有這樣的應用big screen。在Lobby里可以看到世界各地的人都在這個空間里邊去逛、去聊、去看最新的產(chǎn)品。
二、數(shù)字人的核心技術
數(shù)字人可以定義為一個未來世界的超級員工,它是一個基于AI的多模態(tài)的人機交互系統(tǒng)。數(shù)字人有三個特征,有人的外觀、人的肢體語言行為、人的大腦,因而代替部分的人力,比如說智能助手、智能客服、智能導購員、智能講解員和形象代言人。未來數(shù)字人可以全部替代人力,甚至超過真人所能做的事情和能力,這樣可以為企業(yè)節(jié)省人力資源成本,降本增效,同時助力城市的數(shù)字化轉型。
數(shù)字人的平臺能力輸出主要有三部分。
第一,可以在管理能力平臺里對數(shù)字人進行知識體系的管理、知識的管理,比如明確數(shù)字人說什么話、做什么樣的問答、提供什么樣的服務,同時對數(shù)字人的形象可以進行配置,比如對數(shù)字人進行遠程控制、OTA升級等。
第二,在算法能力平臺,用算法模型的技術對數(shù)字人進行渲染、驅動等。
第三,應用層拓展,幫助數(shù)字人在地產(chǎn)、商超、園區(qū)、酒店和各種辦公大廳進行落地,同時可以在手機端、PC端、平板電腦、一體端、大屏、AR、VR眼鏡、車機等進行展示和交互。
數(shù)字人可以按能力進行分層,一個維度是自動化的制作水平高低,另一個維度是擬人化、智能化程度的高低。
商湯科技已落地的產(chǎn)品形態(tài)和功能包括線下場景,線下場景、C端觸達場景等。
商湯科技在數(shù)字人方面有五大優(yōu)勢,一是有豐富的數(shù)字人形象;二是能快速生成和驅動虛擬人;三是有精細的數(shù)字人還原;四是多樣驅動;五是行業(yè)領先的AI算法,包括讓口型更加準確的自研STA的算法模型和讓問答更加智能的自研NLP系統(tǒng)。
三、數(shù)字人的應用場景
提到數(shù)字人的典型應用場景,第一個是虛擬代言人。
很多人從去年已經(jīng)非常深刻地感受到了這個行業(yè)的痛點,比如真人明星的道德包括緋聞這些問題是不可控的,還有明星的排期、檔期等也是不可控的。
用傳統(tǒng)方法制作一個影視級的CG虛擬人,制作成本非常高、周期很長。商湯科技通過快速的數(shù)字人生成和驅動方式,可以讓虛擬代言人非常便捷地去進行多媒體資源的輸出。
第二個典型應用場景就是金融,可分為線上和線下。線上可以將數(shù)字人嵌入到金融的App、H5、小程序里,讓數(shù)字人承擔智能客服、理財推薦等工作。線上金融有一個很大的痛點就是一些年長的叔叔阿姨,他們年齡大了,但是有錢也有閑,他們是絕佳的目標用戶人選。但是這些大叔大媽不太會使用App,這時候數(shù)字人可以通過對話交互的方式,去告訴他們怎么使用App,同時通過對話交互推薦理財產(chǎn)品,來提升復購率和購買率。
線下的場景就清晰了,數(shù)字人可以減輕人力的資源成本,部分替代大堂經(jīng)理的工作,起到降本增效的作用。
第三個是新媒體創(chuàng)新應用場景。在近幾年,虛擬直播、二次元、短視頻等新興詞匯已然不再單單是一個符號,每個詞背后所蘊含的經(jīng)濟規(guī)模、從業(yè)人數(shù),都已經(jīng)不可同日而語。上述這些新興市場都有同一個特點,那就是技術驅動和內(nèi)容驅動。針對這一特點,商湯科技提早布局,早在這些行業(yè)方興未艾之時,就已經(jīng)形成了從底層算法、SDK到平臺交付的能力與產(chǎn)品。無論是短視頻和二次元平臺的虛擬美妝和數(shù)字人Avatar,還是幫助傳統(tǒng)行業(yè)快速切入年輕化市場的數(shù)字人視頻生成平臺,我們正在不斷提供成熟且貼合客戶需求的綜合技術能力。
第四個是文旅場景。商湯科技在上海的中共一大紀念館專門做了一個數(shù)字人一體機,它一方面可以對用戶進行場館的介紹,比如說哪里可以買紀念品,展區(qū)怎么走,衛(wèi)生間在哪里等,另一方面它對中共一大的知識專門做了整體的訓練和學習,無論游客問出什么樣的中共一大的知識和問題,數(shù)字人都能夠回答。
除此之外,還有數(shù)字人超大屏,可以發(fā)揮這樣幾個作用,比如信息展示、進行員工關懷,迎接參觀客人等。
除了上述場景之外,商湯科技的數(shù)字人也在新零售與虛擬主持人領域有廣泛的成功案例。商湯的數(shù)字人智能導購不僅可以承擔一般商超導購、前臺的事務性工作,其背后的人工智能技術更可以讓智能前臺成為整個商超的“百曉生”,無論是某位會員的停車位,還是當下各個店鋪的打折優(yōu)惠信息,她都能游刃有余服務好每一位顧客?!靶阃饣壑小钡臄?shù)字人也可以承擔各類線上、線下活動的主持人工作,并根據(jù)活動主題變換不同外觀、服飾、甚至性格和語言風格。
總之,數(shù)字人可以給不同行業(yè)提供解決方案,包括金融行業(yè)、政務行業(yè)、商場行業(yè)、展廳、車載、形象代言人、直播帶貨等,相信數(shù)字人在今年也會有更好更大的發(fā)展。
要想了解更多元宇宙網(wǎng)絡及運算相關內(nèi)容信息,可查看MetaCon元宇宙技術大會官網(wǎng),地址:https://metacon.51cto.com/?