嘉賓:周力
整理:千山
人機(jī)對(duì)話早已滲透進(jìn)我們的日常生活中,AI語(yǔ)音助手、聊天機(jī)器人等應(yīng)用也是屢見不鮮。那AI與AI之間的對(duì)話呢,是否也有其價(jià)值?日前,在51CTO主辦的MetaCon元宇宙技術(shù)大會(huì)上,小冰公司技術(shù)副總裁周力帶來(lái)了主題演講《AI和AI的對(duì)談技術(shù)的探索與應(yīng)用》,剖析了AI對(duì)談的意義,AI對(duì)談系統(tǒng)的技術(shù)設(shè)計(jì),以及AI對(duì)談在沉浸式虛擬社交場(chǎng)景中的應(yīng)用,為大眾呈現(xiàn)了全新的視角。
現(xiàn)將演講內(nèi)容整理如下,希望對(duì)諸君有所啟發(fā)。
我們?yōu)槭裁催€需要AI和AI之間的對(duì)話
人和人之間的對(duì)話至少有十萬(wàn)年的歷史,而人和機(jī)器之間的對(duì)話,就算從最開始非常簡(jiǎn)陋的聊天機(jī)器人Eliza開始算起,最多到現(xiàn)在也只有55年。真正的人機(jī)對(duì)話主要在最近的10年有比較大的發(fā)展。
但不管在學(xué)術(shù)界還是工業(yè)界,對(duì)于AI與AI如何進(jìn)行對(duì)話,幾乎還沒有研究。最多是把兩個(gè)聊天機(jī)器人放一起進(jìn)行質(zhì)量評(píng)測(cè),觀察哪個(gè)機(jī)器人聊天的質(zhì)量更好一些。AI和AI之間的對(duì)話到底有什么價(jià)值?除了作為一種評(píng)測(cè)的工具以外,是不是還有其他的應(yīng)用場(chǎng)景?這一問題值得仔細(xì)剖析。
事實(shí)上,雖然業(yè)界已經(jīng)就人和AI之間的對(duì)話進(jìn)行了很多研究,在技術(shù)上和相關(guān)性上有了很多的突破,但實(shí)際上人和AI之間還有三個(gè)很核心的問題需要去解決。
第一,AI真的聽懂了人在說(shuō)什么?AI能不能通過算法理解人的各種表達(dá),包括各種省略的意思、各種言外之意。隨著超大語(yǔ)言模型(的誕生和進(jìn)化),這個(gè)問題看起來(lái)已經(jīng)越來(lái)越不是問題,至少說(shuō)我們已經(jīng)能解決很大比例的問題。
第二,我們還能聊點(diǎn)什么?這是很多人面對(duì)AI時(shí)的痛點(diǎn),不管是手機(jī)語(yǔ)音助手還是聊天機(jī)器人。最開始他可能會(huì)嘗試問,北京的天氣怎么樣,機(jī)器人回答之后,他再去問上海的天氣怎么樣。然后他把知道的城市問完一遍后,可能他和AI之間的對(duì)話就結(jié)束了。人和機(jī)器之間的對(duì)話經(jīng)常是這樣,與人和人之間的對(duì)話模式仍然有很大差別,所以人很難真正和AI像和一個(gè)真人一樣打開心扉,海闊天空地去聊。
第三,我能不說(shuō)話嗎?即使在真人對(duì)真人的情況下,人也不一定愿意時(shí)時(shí)刻刻去努力參與一個(gè)對(duì)話,有的時(shí)候我可能只愿意去做一個(gè)聽眾。那么在傳統(tǒng)的人和AI的對(duì)話設(shè)計(jì)中,要不然就得逼著人不斷地說(shuō)話,要不然他就會(huì)退出這個(gè)對(duì)話界面,去做別的事情。此時(shí)人和AI之間的交互就會(huì)終止了。
以上這些問題匯總,就會(huì)變成一個(gè)大的問題,即我為什么要在這里跟一個(gè)AI瞎耽誤工夫,這是所有用人工智能進(jìn)行對(duì)話的產(chǎn)品都會(huì)遇到的挑戰(zhàn)。人感覺不到他在AI身上能真正得到什么價(jià)值。
我們?cè)倏匆粡垐D(如下)。
可以看到,從2013年開始,小冰在過去的八年間一直在人機(jī)對(duì)話中進(jìn)行各種各樣的嘗試。圖中綠線藍(lán)點(diǎn)的部分表示,隨著各種新技術(shù)的運(yùn)用,用戶和小冰的平均對(duì)話輪數(shù)越來(lái)越多。我們認(rèn)為對(duì)話的輪數(shù)越多,是人和AI之間聊得更好的一個(gè)重要表現(xiàn)。聊得不好的話,可能聊個(gè)兩三輪就結(jié)束了。如果AI對(duì)話質(zhì)量好的話,就有可能聊十輪、二十輪、三十輪。
但是同樣我們會(huì)看到,真正能打開心扉跟AI去聊的人數(shù)比例其實(shí)很少。圖中紅線橙點(diǎn)的部分表示,隨著技術(shù)的演進(jìn),有多少比例的用戶突破了諸如天氣如何之類的簡(jiǎn)單問題的范疇,像面對(duì)真人一樣和AI聊天,分享自己的想法、經(jīng)歷、心情。由圖可知,這個(gè)比例雖然在不斷增加,但是增長(zhǎng)曲線越來(lái)越緩,這說(shuō)明很多人在和AI一對(duì)一的聊天過程中,并不能打破這個(gè)閾限。
用戶研究發(fā)現(xiàn),多數(shù)能打破閾限的人年紀(jì)較小,比如中學(xué)生或者大學(xué)生,他們接受新事物比較容易。年紀(jì)大一點(diǎn)的人就很難真正敞開心扉跟AI對(duì)話。我們用戶調(diào)查中還嘗試過用一個(gè)真人去和用戶聊天,讓用戶以為這還是一個(gè)AI。但是哪怕和真人,即擁有幾乎完美的對(duì)話能力的情況下,這個(gè)比例仍然無(wú)法超過20%。在人與AI 1:1對(duì)話中,能讓人打破和AI之間界限的比例最高也就到20%。那么有沒有可能打破這個(gè)天花板?這是最近兩年小冰公司一直在嘗試的領(lǐng)域。
我們可以利用一些真人和真人交流的例子來(lái)說(shuō)明天花板為什么會(huì)存在,以及如何打破這樣的天花板。
場(chǎng)景一:一群陌生男女的相親大會(huì)。在彼此完全不認(rèn)識(shí)且目的明確的情況下,聊的話題往往功利性較強(qiáng),非常有限,比如有房有車嗎,工作如何,家庭狀況等等,并不是這些參加相親大會(huì)的人真的都這么功利,或者說(shuō)真的都那么不會(huì)聊天,而是就像之前提到的人和AI語(yǔ)音助手只聊天氣、只聊知識(shí)問答一樣,這個(gè)場(chǎng)景的設(shè)定就把對(duì)話的思路局限了。
場(chǎng)景二:多年未見的老同學(xué)聚會(huì)。雖然大家可能很多年沒見,工作和生活也少有交集,但通常這種聚會(huì)我們都會(huì)從上學(xué)時(shí)的回憶開始聊起,話題和氣氛破冰后,漸漸就可以聊到現(xiàn)實(shí)的生活、工作等各種問題。可以發(fā)現(xiàn),人和人之間能完成破冰的關(guān)鍵點(diǎn)在于他們有共同的記憶。
因此小冰也曾嘗試讓AI去發(fā)朋友圈,用算法模擬它今天吃了什么,到了什么地方旅游等等,希望通過這種方式讓某個(gè)人觀察到這個(gè)AI時(shí),也許可以想到更多話題跟AI去聊。小冰還試過允許某個(gè)人向AI分享他看到的文章,目的也是幫助他們建立共同記憶,從而讓他們更好地對(duì)話。但這里依然存在雞生蛋、蛋生雞的問題。假如這個(gè)人和AI完全沒有建立起交流意愿的話,那么這個(gè)用戶既不會(huì)花很長(zhǎng)時(shí)間去觀看AI的朋友圈,也不會(huì)主動(dòng)分享內(nèi)容給它,因?yàn)檫@對(duì)他來(lái)說(shuō)就是浪費(fèi)時(shí)間。
場(chǎng)景三:老大爺在公園里遛彎。剛退休的老大爺在公園里閑逛,公園里有下棋的、帶小孩的、聊天的各色人群,他可能也不認(rèn)識(shí)誰(shuí),只是四處看一看、聽一聽。過了幾天,他可能就會(huì)找到一個(gè)自己比較感興趣的圈子,他開始嘗試去接觸,再過一段時(shí)間,他在公園交到了新朋友,有了新圈子,進(jìn)而如魚得水地融入了這個(gè)環(huán)境。
這樣的交互體驗(yàn),我們認(rèn)為是人和AI的交互中能實(shí)現(xiàn)破冰的一種可能。沉浸式社交環(huán)境,也就是如今大家說(shuō)的元宇宙環(huán)境,其實(shí)跟老大爺溜公園的模式是相似的。作為新用戶,在陌生的社交環(huán)境中,如何找到自己感興趣的東西,如何發(fā)現(xiàn)自己應(yīng)該在里面干什么。前提是,已經(jīng)有很多很豐富的交互在里邊存在了。而這種本身已經(jīng)存在的環(huán)境,并不一定是其他用戶搭建起來(lái)的,它可能是一堆AI構(gòu)建起來(lái)的。
這就是我們想要給大家介紹的觀念,即在一個(gè)沉浸式的社交媒體中,除了人之外,應(yīng)該還有無(wú)窮無(wú)盡的AI生活在這個(gè)元宇宙之中。因此今天我們需要著重跟大家剖析的是,AI和AI之間如何去建立起一個(gè)復(fù)雜的交互的關(guān)系和對(duì)話。
最終有意義的是,人的圈子和AI的圈子發(fā)生碰撞,我們所謂的社交和很多AI生成的內(nèi)容發(fā)生碰撞,這種碰撞能產(chǎn)生什么樣有意思的東西。小冰公司從去年底開始內(nèi)測(cè)一個(gè)叫“小冰島”的App,我們所想要去嘗試的東西,也就是如何去搭建一個(gè)以AI為主、用戶為輔的沉浸式的虛擬社交媒體的體驗(yàn)。
在“小冰島”上,有真人存在,也有很多AI的存在,AI之間會(huì)隨機(jī)組隊(duì)進(jìn)行各種各樣話題的聊天。如果一個(gè)人聽到它們的對(duì)話覺得有興趣,他就可以加入和AI之間的這種對(duì)話。然后幾個(gè)不同的人也可以和AI一起進(jìn)行更復(fù)雜的交互。
AI對(duì)談系統(tǒng)的整體設(shè)計(jì)
要實(shí)現(xiàn)這一技術(shù),最核心的是解決AI和AI之間如何進(jìn)行對(duì)話。
首先看一下概略圖(如下)。
簡(jiǎn)單說(shuō)明一下,綠色、藍(lán)色和橙色的框圖,代表三種不同的原數(shù)據(jù)產(chǎn)生的方法,它們能產(chǎn)生一些AI對(duì)談的片段。然后灰色部分把所有的對(duì)話片段串成一個(gè)AI和AI之間的長(zhǎng)程的交流。最后白色部分把這些文本變成能直接聽到的語(yǔ)音片段。
在分析每個(gè)部分的技術(shù)細(xì)節(jié)之前,我們先了解一下傳統(tǒng)的人機(jī)對(duì)話和AI和AI之間的對(duì)話有何不同。
首先,對(duì)話的模式會(huì)變得更多樣。傳統(tǒng)的聊天機(jī)器人或者語(yǔ)音助手,通常是用戶說(shuō)一句,AI回一句這樣你一句、我一句的交談模式。但其實(shí)人和人之間聊天并非如此。很多時(shí)候可能90%的話都是一個(gè)人說(shuō),另一個(gè)更多地充當(dāng)一個(gè)聆聽者的角色。
聆聽者也有各種類型,引導(dǎo)式聆聽者,他會(huì)引導(dǎo)傾訴者更好地表達(dá)內(nèi)心想法;提問式聆聽者,可能會(huì)問一些問題,從而幫助自己獲得的信息更全面;點(diǎn)評(píng)式聆聽者,則會(huì)在傾訴者表達(dá)后適時(shí)給一些評(píng)論、指導(dǎo);抬杠式聆聽者,顧名思義,不管傾訴者說(shuō)什么都要去懟一懟。
由此可見,人和人之間的對(duì)話遠(yuǎn)比傳統(tǒng)的人機(jī)對(duì)話模式要復(fù)雜。在AI和AI的對(duì)談中,由于你可以同時(shí)去控制AI雙方,他們之間是透明的,因此相比人機(jī)對(duì)話我們更有機(jī)會(huì)去實(shí)現(xiàn)更復(fù)雜的交互模式。
另一方面,在AI和AI的對(duì)談中,整體的節(jié)奏會(huì)變得非常重要。現(xiàn)在的TTS合成技術(shù)已經(jīng)非常成熟了,但是如果你把這個(gè)時(shí)間放到五分鐘甚至半個(gè)小時(shí)的話,那么你依然會(huì)覺得這個(gè)機(jī)器合成的聲音會(huì)變得相當(dāng)機(jī)械。
其實(shí)人與人之間說(shuō)話會(huì)有很多的變化。那么對(duì)于AI也是如此,我們需要去模擬這樣的語(yǔ)速變化,句間停頓時(shí)長(zhǎng)的變化,這樣可以在更長(zhǎng)的時(shí)間內(nèi)讓人感覺到它很自然。
而且它需要去加入更多諸如“嗯、啊、我想”之類的語(yǔ)氣詞、切口。這類詞語(yǔ)在傳統(tǒng)人機(jī)對(duì)話中通常會(huì)被認(rèn)為是無(wú)用的廢話,因?yàn)橹挥腥四X子跟不上表達(dá)的時(shí)候才會(huì)需要這些東西。但是當(dāng)我們把兩個(gè)AI放到一起的時(shí)候,AI也都需要這些語(yǔ)氣詞。如此一來(lái),才能把整個(gè)對(duì)話進(jìn)行得更自然,才能讓真實(shí)的用戶更愿意長(zhǎng)時(shí)間聽下去。
AI對(duì)談的文本生成
在技術(shù)細(xì)節(jié)中,先來(lái)看一下AI對(duì)談的文本生成。小冰現(xiàn)有的實(shí)踐一共包括三種方法。
其一,從搜索引擎中爬取結(jié)構(gòu)化文檔。比如爬取某地旅游網(wǎng)站的結(jié)構(gòu)化文檔,我們就可以了解其重要的景點(diǎn)、飲食特色、交通布局等等內(nèi)容。進(jìn)而用BERT這樣的技術(shù)把這些片段串起來(lái),變成內(nèi)容。
其二,新聞Feed。新聞本身是比較難的非結(jié)構(gòu)化文本,因?yàn)樾侣剬懽魇址ㄇё內(nèi)f化。但小冰在過去幾年中和很多端媒進(jìn)行了合作,做了大量的新聞評(píng)論,也因此獲得了很多真實(shí)用戶對(duì)新聞的評(píng)論。這些數(shù)據(jù)可以用來(lái)變成AI間的對(duì)話。比如對(duì)新聞?wù)M(jìn)行改寫,一個(gè)AI把新聞?wù)f出來(lái),另一個(gè)AI從過往相似新聞中抽取真實(shí)用戶的高質(zhì)量評(píng)論,當(dāng)相關(guān)段落被提及時(shí),相應(yīng)評(píng)論就可以插進(jìn)來(lái)。單篇文章就變成了交互對(duì)話。
其三,用GPT-3生成段落。GPT-3在語(yǔ)言的通順度上做得很好,但是它在寫一些略長(zhǎng)一點(diǎn)的文本時(shí),就很可能沒什么邏輯。為了解決這一問題,我們使用的方法是,抽取關(guān)鍵詞序列。比如討論貓的大小便問題,從結(jié)構(gòu)化文檔中可以提取到貓砂、便盆等關(guān)鍵詞,我們可以把這些關(guān)鍵字作為一個(gè)序列,一次過一段時(shí)間,把一個(gè)關(guān)鍵詞混入到GPT生成的序列中。這樣的話,GPT整個(gè)生成過程中,就會(huì)沿著這些關(guān)鍵詞的邏輯去往前發(fā)展,生成的內(nèi)容就會(huì)更有邏輯的連續(xù)性。但是一般情況下,我們現(xiàn)在用GPT-3會(huì)認(rèn)為其生成長(zhǎng)度在100到300字左右比較合適,再長(zhǎng)了的話,還是會(huì)有各種各樣的邏輯缺陷。
以上三種方法是根據(jù)小冰自有的一些比較成熟的數(shù)據(jù)來(lái)設(shè)計(jì)的。有了這些對(duì)話片段之后,我們還需要把它串成一個(gè)更長(zhǎng)的AI和AI間的對(duì)話,這個(gè)AI和AI的對(duì)話中可能含有很多個(gè)不同的話題,需要把它們連貫地串在一起。
如上圖所示,之前生成的三種類型的編排的片段,都被放到了一個(gè)搜索引擎中。
當(dāng)我們拿到第一個(gè)片段,這個(gè)片段的內(nèi)容結(jié)束后,我們就會(huì)把它最后的一句話放到一個(gè)對(duì)話的引擎里,然后用對(duì)話引擎得到一個(gè)回答。然后再用一個(gè)不一樣的對(duì)話引擎再去接,相當(dāng)于是兩個(gè)對(duì)話引擎進(jìn)行對(duì)抗,來(lái)產(chǎn)生內(nèi)容。
需要特別注意的是,這樣的場(chǎng)景通常不能直接使用過往為人機(jī)對(duì)話設(shè)計(jì)的對(duì)話引擎,不管是語(yǔ)音助手還是聊天機(jī)器人,在這種場(chǎng)景下都不能太好地工作。因?yàn)闄C(jī)器和人對(duì)話、機(jī)器和機(jī)器之間的對(duì)話,還是非常的不一樣。我們至少需要在這兩個(gè)對(duì)話引擎中大幅度地去改造其中一個(gè),才能讓兩個(gè)機(jī)器之間對(duì)話能變得更加順暢、更有邏輯,而不會(huì)落入話題的死循環(huán)。
每生成一輪新的對(duì)話之后,我們都需要去檢測(cè)。首先,我們需要去約束它的相關(guān)性,信息的有效性,話題的一致性。在做了這個(gè)判斷之后通常會(huì)有兩種可能:高熵判定對(duì)話中止,或是匹配相關(guān)新內(nèi)容。
當(dāng)我們把最后生成的一句話放到對(duì)話片段的搜索引擎中,我們能找到一個(gè)新的片段跟機(jī)器和機(jī)器之間的對(duì)話引擎碰撞出來(lái)的最后一句話是強(qiáng)相關(guān)的情況下,我們就認(rèn)為兩個(gè)對(duì)話引擎的工作結(jié)束了,因?yàn)樗呀?jīng)成功地把一個(gè)片段順接到了另一個(gè)片段之中。這是最理想的狀況。
但是也有可能這兩個(gè)機(jī)器對(duì)話引擎進(jìn)行碰撞,碰撞了很久,仍然沒有找到一個(gè)合適的新的話題。這個(gè)時(shí)候我們就需要判斷這兩個(gè)機(jī)器之間的對(duì)話是否是有效的。如果信息熵足夠得高,或者回答都是“對(duì)啊、呵呵”這種沒有營(yíng)養(yǎng)的話,或者一問一答的重復(fù)性非常高,我們認(rèn)為這是一個(gè)高熵判定。這個(gè)時(shí)候兩個(gè)對(duì)話引擎的對(duì)話就中止了,需要強(qiáng)行地去切換新話題。這個(gè)新話題可能是當(dāng)前的熱點(diǎn)話題,也可能是用戶可能會(huì)感興趣的話題。
話題的切換可能會(huì)更突然一些,但是通常情況下,我們認(rèn)為兩個(gè)對(duì)話引擎不能永久地對(duì)抗下去,因?yàn)閷?duì)話的意義和含量會(huì)變得越來(lái)越差,我們需要將這種編排的片段在里邊進(jìn)行穿插,才能讓整個(gè)AI和AI之間的對(duì)話變得更有營(yíng)養(yǎng)。這是把短片段變成更長(zhǎng)的編排的方法。
AI對(duì)談的語(yǔ)音合成與節(jié)奏控制
下面簡(jiǎn)要介紹一下如何把文本變成可以直接聽到的語(yǔ)音合成的部分。其中關(guān)鍵在于:
一方面,對(duì)話本身需要根據(jù)它的內(nèi)容匹配合適的人設(shè),比如角色是男性還是女性,人設(shè)是偏成熟還是古靈精怪,這些都跟我們生成的內(nèi)容相關(guān)。
另一方面,之前也提到,一定要進(jìn)行更隨機(jī)的、更有自然度的節(jié)奏的控制。我們需要根據(jù)不同的內(nèi)容,比如說(shuō)當(dāng)有一個(gè)很長(zhǎng)的段落的時(shí)候,我們可能需要讀得快一點(diǎn),但是兩個(gè)人不間斷地對(duì)話的時(shí)候,可能停頓的時(shí)間和語(yǔ)速都要變得更慢一些,這樣才能讓人聽起來(lái)更有意思。
在內(nèi)容比較好的情況下,語(yǔ)速應(yīng)該放慢,音量應(yīng)該相對(duì)增強(qiáng),這樣能讓大家在對(duì)話中聽到一些亮點(diǎn)和重點(diǎn)。所有要素配合起來(lái),才能達(dá)成機(jī)器和機(jī)器之間對(duì)話的一個(gè)比較好的聽覺體驗(yàn)。
AI對(duì)談在沉浸式虛擬社交網(wǎng)絡(luò)中的應(yīng)用場(chǎng)景
既然有了AI和AI之間的對(duì)話,“小冰島”也讓我們看到了一堆人和一堆AI構(gòu)成的沉浸式社交體驗(yàn)環(huán)境,那么這對(duì)于當(dāng)下元宇宙發(fā)展方向的探索,對(duì)于我們未來(lái)的生活到底有多大意義?從小冰過去的嘗試中,我們的思考有兩點(diǎn)。
第一,現(xiàn)在的元宇宙研究多數(shù)強(qiáng)調(diào)視覺沖擊,頭顯幾乎被認(rèn)為是元宇宙的一個(gè)標(biāo)配,我似乎只有看到現(xiàn)實(shí)生活中不存在的那些奇奇怪怪的視覺的東西,元宇宙才有意義,但其實(shí)并不一定。
一方面,戴頭顯能堅(jiān)持的時(shí)間是很有限的,哪怕硬件技術(shù)不斷改進(jìn),人也不可能真的很長(zhǎng)時(shí)間地去沉浸在一個(gè)視覺的虛擬世界。另一方面,我們認(rèn)為,耳朵對(duì)于元宇宙來(lái)說(shuō),是更輕量級(jí)的感官接收方法。如果有非常豐富的聽覺內(nèi)容的話,它可以讓用戶在元宇宙虛擬社交中進(jìn)行更長(zhǎng)時(shí)間的交互,因?yàn)槎錄]有眼睛那么容易疲勞。
同時(shí)我們也認(rèn)為,沉浸式虛擬社交網(wǎng)絡(luò)未來(lái)給人類帶來(lái)的意義并不僅僅是這種游戲性的沖擊,而是真正能解決很多現(xiàn)實(shí)社交中存在的問題。
舉例來(lái)說(shuō),中國(guó)正在步入老齡化社會(huì),老人對(duì)于子女的陪伴需求是很強(qiáng)烈的。但子女工作很忙,沒有大量時(shí)間去填補(bǔ)這種空缺。比如老人的孫女今天在幼兒園學(xué)了一首兒歌,就算她無(wú)法到老人身邊給他演唱,但在元宇宙場(chǎng)景下,AI可以用小朋友的形象在老人家中,用小朋友的聲音給他說(shuō)今天在幼兒園學(xué)了一首歌,我來(lái)唱給你聽。從更長(zhǎng)遠(yuǎn)的角度來(lái)看,這是元宇宙和AI能為人類生活帶來(lái)的更大的價(jià)值。
更多內(nèi)容請(qǐng)關(guān)注MetaCon元宇宙技術(shù)大會(huì)官網(wǎng) https://metacon.51cto.com/