對話清華黃民烈:借用自動駕駛分級定義AI對話系統(tǒng),元宇宙虛擬伴侶或位于L5
本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。
“我很慶幸能陪在你身邊,通過你的目光看世界(I'm so happy I get to be next to you and look at the world through your eyes.)。"
這是影片《Her》中的一句臺詞,由AI語音助手Samantha對男主角說出。這句話對于迷失在鋼鐵森林中,感到失落而無力的男主角來說是莫大的安慰。
Samantha是一款幾乎萬能的自我學習型操作系統(tǒng)。她能幫助男主角篩選出最優(yōu)秀的信件,發(fā)給他喜歡的出版社出版;她可以根據男主的需要,瞬間漫游整個人類知識庫,搜索出最適合他的應對方案;她最強的功能還要數情感陪伴,男主的一切困惑和不悅都能在談話中被她以溫情化解……
作為國內NLP領域的前沿學者,清華大學計算機教授黃民烈將NLP技術應用到心理健康賽道,主導研發(fā)AI情緒對話機器人Emohaa。在采訪黃民烈教授時,他便提到了這部2013年上映的影片《Her》,言談中表現出了對這部科幻影片的欣賞,或者說,期待。作為研發(fā)AI對話系統(tǒng)的同行,他期待著《Her》中那樣善解人意的AI對話系統(tǒng)真的出現在現實當中,實現行業(yè)的飛躍進步。
這不禁令人發(fā)問:如果要使AI對話系統(tǒng)像Samantha一樣執(zhí)行復雜情感任務,做到安撫情緒,療愈人心,其難度有多高?這個難度如何量化?怎樣衡量一個AI對話系統(tǒng)是否達到Samantha的級別?
這并不是一個不切實際的問題。事實上,在如今AI對話系統(tǒng)呈爆炸式增長的態(tài)勢下,“小度”、“小愛”、谷歌對話機器人“Meena”,Facebook聊天機器人“Blender”等等對話產品層出不窮。然而,當前AI對話系統(tǒng)標準缺失,造成其在應用中呈現出水平參差不齊、評價體系不一的現狀,導致了業(yè)界因認知不統(tǒng)一而對人工智能的交互水平出現誤解,也引起了社會上關于意識、倫理、道德等方面的廣泛討論。
也有從事AI對話系統(tǒng)開發(fā)的科學家提出,自己時常感到難以評判所開發(fā)AI對話系統(tǒng)的水平??茖W家認為,業(yè)界急需一個針對AI對話系統(tǒng)水平進行分級的標準。在制定了分級標準后,AI對話系統(tǒng)能力水平的衡量才將有據可依。
因此,為了更好地評估AI對話系統(tǒng)的能力水平,黃民烈教授聯(lián)合學界和業(yè)界科研機構參照自動駕駛中從L0到L5的分級概念,制定了全球首個《AI對話系統(tǒng)分級定義》(以下簡稱《分級定義》),并于6月28日正式發(fā)布。
圖注:黃民烈教授講解AI對話系統(tǒng)的分級定義
《分級定義》的出現,或將推動AI對話系統(tǒng)在虛擬個人助理、智能家居、智能車載語音、情感陪護和心理健康等等領域的應用,并將加速下一代AI對話系統(tǒng)的研發(fā)與落地應用,對學術界與工業(yè)界研究語音語言對話系統(tǒng)均有重要的參考意義。
圍繞《分級定義》,AI科技評論與黃民烈教授進行了一次對話,以下是對話內容:
AI科技評論:請問是什么讓您產生了要對AI對話系統(tǒng)進行分級的想法?
黃民烈:目前我們對于對話系統(tǒng)的評價存在一個問題:如今的技術路線和架構百花齊放,互相之間難以比較。例如,我想要拿一個智能音箱和一個聊天機器人比較,但無法比較其對話能力,因為對話系統(tǒng)的水平參差不齊,缺少統(tǒng)一的評價體系,缺少一個明確的能力界定標準。
我們在任務型對話系統(tǒng)里有一定評價指標,在閑聊型對話系統(tǒng)里有一定評價指標,知識型對話系統(tǒng)里也有一定評價指標,指標之間到底應該怎樣去統(tǒng)一,這就是《分級定義》主要考慮的問題。所以我們借鑒了自動駕駛從L0到L5的分級定義,也用L0-L5來對AI對話系統(tǒng)進行分級。
AI科技評論:請您為我們講解一下AI對話系統(tǒng)分級的具體定義。
黃民烈:自動駕駛的分級從L0到L5分為六級,其中L0是指完全人工駕駛,L5是完全自動駕駛,車輛接管一切。而L1-L4是在某些特定條件下實現自動駕駛,自動駕駛的分級主要涉及人與車輛掌管駕駛的比例,定義比較簡單。但是對話系統(tǒng)就相當復雜了,其技術路線、技術架構眾多,任務多,評價指標也非常多,我們經過討論,認為最終需要滿足五個基本原則:
第一,僅僅關注完全由機器主導的對話系統(tǒng),人機混合的對話系統(tǒng)不在考慮范圍內;第二,從系統(tǒng)表現的能力和用戶可以感知的角度出發(fā),不考慮系統(tǒng)的具體技術實現方式;第三,各分級定義對應的能力水平需要可觀察、可測試、可度量;第四,不區(qū)分助理類、閑聊類、知識對話類等任務類型,均以“場景”進行表述;第五,我們希望衡量對話系統(tǒng)的能力水平可以提供對話系統(tǒng)的研究方向的建議和實際應用的參考。
在這五個原則上,我們給出了AI對話系統(tǒng)分級的定義:
L0實際對話由人給出,系統(tǒng)完全沒有自動對話能力,或者說在任意單一的場景里面,系統(tǒng)無法給出較高質量的對話。
而L1能夠完成單一場景的較高質量的對話,但是沒有辦法處理場景之間的上下文依賴。舉個例子,比如我要出差,訂好了去南京的機票,又需要訂賓館。既然去南京出差,肯定訂在南京的某個賓館。這就是有場景之間的上下文依賴,這種訂飛機票和訂賓館之間形成的上下文的依賴,L1無法處理。
而L2是在L1的基礎上能夠同時完成多個場景較高質量的對話,具有跨場景的上下文依賴和自然切換的能力。我剛才講到了訂機票又訂賓館,還要問問那邊的天氣怎么樣,有什么旅游景點,這就是自然地在不同任務和不同場景之間靈活切換。這種能力在L2上非常關鍵,但是L2沒有辦法完成新場景的較高質量的對話。
L3在L2的基礎上能夠針對大量場景開展高質量的對話,在新的場景上也具有較高質量的對話能力。我在此處提到了一個“大量場景”,也許你會問“大量”是多少?十個算不算、二十個算不算、三十個呢?為了標準和定義能有更廣泛的結合度,我們并沒有給出數量上的具體定義,但是在沒有見過的新場景下是否有較高質量對話是很關鍵的能力。
L4是指在新場景上具有較高質量的對話能力,并且在多輪交互里面擬人化(指人設、人格、情感觀點等維度的一致性)的程度較高。這就好比我們跟一個人聊天,對方不可能一會是男的,一會是女的,不可能一會兒在清華上學,一會兒在北大上學——人都有自己固定的人設信息,這種人設信息目前在對話系統(tǒng)里面處理還是非常之難。目前我們能做到讓對話系統(tǒng)一定程度體現人設,但是離真正類人的水平還差得比較遠。
L5在L4的基礎上更上一層樓,L5在多輪交互中擬人化程度很高,能夠在開放場景交互中主動學習和持續(xù)學習,具有多模態(tài)感知與表達能力。這就好比我們跟小孩說,你這么做不對,小孩就學會了。未來我們希望L5的對話系統(tǒng)能夠做到我們跟它講什么是對的、什么是不對的,它就能夠記住和學會。在交互過程中,我們同時希望L5對話系統(tǒng)有多模態(tài)的感知和表達能力,能真正進入到元宇宙和各種虛擬人的場景里面,能夠真正地做表情和動作,能夠理解對方的表情、動作和情緒等等。
以上就是《AI對話系統(tǒng)分級定義》中從L0到L5的基本定義。
AI科技評論:您剛才提到的“較高質量”和“高質量”是如何定義的呢?
黃民烈:何謂高質量和較高質量,其實我們有一整套評判標準。滿分為10分,高質量是指在相關性、信息量、自然度三個維度上的分數可以達到8-10分,較高質量就是6-8分,低質量就是小于6分。
這三個維度是什么意思呢?相關性是指回復的內容跟前文適度匹配;信息量是指回復提供足夠必要的信息量,像“我不知道”,“好的”這種回復就是沒有任何信息量的;自然度是指與人相比的自然度,對話系統(tǒng)的語法是否通順,是否存在常識錯誤等。
而這個分數怎么去測呢?可以通過一定數量的測試者和這個對話系統(tǒng)進行充分的對話交互,由測試者從三個維度對對話系統(tǒng)進行主觀打分,很像亞馬遜Alexa Prize競賽評價的方法。
注:亞馬遜Alexa Prize競賽的目的是提供一個標準的開發(fā)環(huán)境和測試框架來推動對話機器人綜合能力的進展,其獎金高達350萬美金。根據該大賽的評分系統(tǒng),在2019年、2020年、2022年這三年中,該競賽評出最好的系統(tǒng)平均分在3.1分到3.6分之間,是在滿足連貫性、上下文理解、流暢回應三個條件下,能夠跟人聊上10-14分鐘的水平。
AI科技評論:定義AI對話系統(tǒng)分級有何意義呢?
黃民烈:第一個心理治療機器人Eliza出現于1966年,截至目前,AI對話系統(tǒng)已經發(fā)展了快60年。在這60年中,無論是對話系統(tǒng)的應用,還是算法模型,都取得了巨大的進展。但我們也會發(fā)現工業(yè)上的實踐,民眾的認知都存在各種各樣的不一致甚至分歧。而且近年來,AI對話系統(tǒng)已經從基于規(guī)則的第一代和以傳統(tǒng)機器學習為核心的第二代,發(fā)展到以大數據和大模型為顯著特征的第三代,在開放話題上展現出了驚人的對話能力,對話能力也產生了革命性變化。
這種革命性的變化給我們帶來很多新的問題,如:AI對話系統(tǒng)會有人格嗎?會有情感嗎?AI對話系統(tǒng)是否能成為虛擬伴侶?等等,而這些問題又延伸到進一步的社會認知和倫理道德方面的討論。
比如說,6月12號有一則新聞,一位谷歌AI倫理研究員Blake Lemoine認為LaMDA語言模型具有人格,因為在與LaMDA聊天的過程中,LaMDA透露出它認為自己擁有意識和感覺,它還說「我意識到我自己的存在,我渴望更了解這個世界,而且有時會感到快樂或悲傷。」網絡上對此一時眾說紛紜,都在討論AI是否擁有了人格和意識。
再說說元宇宙,元宇宙希望能夠把真實世界復刻到網絡里面,讓真實世界的人們在網絡世界里互動起來。而AI對話系統(tǒng)在元宇宙內有極大用處,比如AI導購員可根據用戶偏好提供獨特建議等等。這就要求我們未來要將對話交互能力做到極佳,否則這種人機交流就不自然,沒有靈魂,我們想要達到的元宇宙也就不成立。
所以說,基于可以預見的AI對話系統(tǒng)未來的蓬勃發(fā)展,以及這種發(fā)展可能對人類帶來的巨大機遇和許多困惑,我們在這個時間點上探索分級定義的意義非常重大。
AI科技評論:在電影《Her》中由于Samantha能夠處理復雜情感任務,男主角愛上了她且陷入了情感危機,那么同樣達到了L4-L5的AI對話系統(tǒng)是否可能造成這樣的問題?這是否涉及到倫理問題?
黃民烈:是的,隨著對話系統(tǒng)的發(fā)展,可能導致非常突出的倫理問題,因為這挑戰(zhàn)了已有的倫理秩序和已有的社會認知。所以在制定《分級定義》時,我們團隊邀請了北京師范大學新聞傳播學院院長張洪忠教授。在我們的后續(xù)工作中,張教授會第一時間向管理部門及社科學界進行推廣,讓相關部門和學界了解后,直觀地從技術邏輯中幫助我們制定相對應的政策法規(guī)倫理問題,這樣非常有針對性。
AI科技評論:目前國內市場上已有的AI對話系統(tǒng)產品在《分級定義》中屬于什么水平?
黃民烈:小米技術委員會主任、AI實驗室主任王斌教授和我們一起合作制定了《分級定義》。他目前負責主導開發(fā)小米的智能生活助理“小愛同學”的智能問答和閑聊功能,那我們就拿小愛同學舉個例子。我認為小愛同學具備一定的跨場景的能力,其水平應該在在L2-L3之間?,F在國內業(yè)界產品的水平一般都在L2-L3這個范圍,好一些的處于L3。
AI科技評論:那么國外的AI對話系統(tǒng)產品大致屬于哪個水平呢?
黃民烈:目前就產品來說,國內外沒有顯著的差別。而且值得注意的是,我們做中文AI對話系統(tǒng)比英文更難一點,因為英文內容開源的文化和理念更好,且英文更容易獲取到高質量的數據;另一方面說來,中文的語言特點比英文更難一點。
AI科技評論:從大多數產品目前的狀態(tài)升級到L4-L5的技術難點是什么?
黃民烈:第一,要有記憶的能力;第二,要有聯(lián)想和推理的能力,以及自學習的能力;第三,L4-L5的關鍵點是多模態(tài)。AI對話系統(tǒng)若想要在元宇宙里適用,那AI對話系統(tǒng)對于表情的識別、語音的理解,從語音上感受用戶的情緒等能力就很重要,是否能做高表現力的語音合成,以及動作和表情細粒度的表達,也都是很重要的難點。
AI科技評論:《分級定義》這種標準通過民間制定就可以推行嗎?還是說需要通過國家的審批,再由官方制定相關標準?
黃民烈:《分級定義》不是一個標準。首先我們是想從學術角度去討論這個問題,希望促進社會公眾的認知,同時希望能給工業(yè)界系統(tǒng)開發(fā)以及研究方向提供一些系統(tǒng)性的思考?,F階段我們不能說《分級定義》已經是一個固定標準,它目前還只是一個建議或者一個指南,而未來我們要做更多的工作,把它推廣成大家認可的標準。這是一個長期的過程,《分級定義》的發(fā)布只是AI對話系統(tǒng)走向規(guī)范化、系統(tǒng)化發(fā)展的第一步。
AI科技評論:那如您所說,需要什么樣的工作才能讓《AI對話系統(tǒng)分級定義》獲得廣泛的認可和應用呢?
黃民烈:后續(xù)我們計劃在CCF(中國計算機學會)的支持下,聯(lián)合相關研究機構和研究者們開展白皮書的編撰,并聚焦AI對話系統(tǒng)的發(fā)展歷程,詳細闡釋《分級定義》的制定目的和標準。
另外,我們希望推動一個類似亞馬遜Alexa Prize競賽的大賽,這是一個需要資金支持的遠期目標。我們希望能夠做出一個統(tǒng)一的開發(fā)環(huán)境,統(tǒng)一的數據集,統(tǒng)一的測試框架,真正比較不同的對話系統(tǒng)。我知道百度有類似的想法,但是還不夠開放。我們未來會再統(tǒng)一各方的力量,目的是希望能夠促進對話系統(tǒng)研究方向的進展,同時也促進工業(yè)落地,在實踐應用上取得一些新的發(fā)展。