聊天機(jī)器人是如何通過知識(shí)圖譜回答問題的?
前言
1950年,圖靈發(fā)表了具有里程碑意義的論文《計(jì)算機(jī)器與智能》(Computing Machinery and Intelligence),提出了一個(gè)關(guān)于機(jī)器人的著名判斷原則——圖靈測(cè)試,也被稱為圖靈判斷,它指出如果第三者無(wú)法辨別人類與AI機(jī)器反應(yīng)的差別, 則可以論斷該機(jī)器具備人工智能。
2008年,漫威《鋼鐵俠》中的AI管家賈維斯,讓人們知道了AI是如何精準(zhǔn)地幫助人類(托尼)解決丟過來(lái)的各種事務(wù)的……
圖1:AI管家 賈維斯(圖片來(lái)源網(wǎng)絡(luò))
2023年初,以2C的方式從科技界火爆破圈的免費(fèi)聊天機(jī)器人ChatGPT浪翻全球。
據(jù)瑞銀的研報(bào),其月活用戶在1月份就達(dá)到了1億,目前還在增長(zhǎng)著,它已成為史上增長(zhǎng)最快的消費(fèi)者應(yīng)用。此外,其東家OpenAI繼前期發(fā)布了每月42美元的專業(yè)版Pro后,馬上就要推出Plus版,據(jù)說(shuō)每月20美元左右。
當(dāng)一件新事物,月活上億,流量上來(lái),并且開啟商業(yè)變現(xiàn)之后,你是否對(duì)它背后的各種技術(shù)感到好奇?比如,聊天機(jī)器人是如何處理和查詢海量數(shù)據(jù)的?
體驗(yàn)過ChatGPT的朋友都有同感,它顯然比天貓精靈或小愛童鞋要更加智能——是一個(gè)“有著無(wú)敵話術(shù)”聊天機(jī)器人,一個(gè)自然語(yǔ)言處理工具,一個(gè)大型語(yǔ)言模型,也是一個(gè)人工智能應(yīng)用。它可以根據(jù)提問素材的上下文與人類互動(dòng),可以進(jìn)行推理和創(chuàng)作,甚至還會(huì)拒絕(它認(rèn)為)不當(dāng)?shù)膯栴},不只是完成擬人化的交流。
雖然目前對(duì)它的評(píng)價(jià)褒貶不一,但從技術(shù)發(fā)展的視角來(lái)說(shuō),它甚至有可能通過圖靈測(cè)試。試問,在我們與它交流的時(shí)候,其(對(duì)于小白而言)廣博的知識(shí),可甜可油的回答,如果在我們完全不知情的前提下,是很難辨別出對(duì)方是人類還是機(jī)器(或許這才是它危險(xiǎn)的地方——ChatGPT 的內(nèi)核依然是屬于深度學(xué)習(xí)范疇,存在大量黑盒與不可解釋性!)。
那么,聊天機(jī)器人是怎么做到將來(lái)自3000 億單詞的訓(xùn)練語(yǔ)料庫(kù)和 1750 億的參數(shù),快速地進(jìn)行整理和輸出的呢,同時(shí)還能做到結(jié)合上下文,根據(jù)它“掌握”的知識(shí),自由應(yīng)對(duì)與人類的交流的呢?
其實(shí),聊天機(jī)器人也有大腦,它跟我們?nèi)祟愐粯?,需要學(xué)習(xí)+訓(xùn)練。
圖2:ChatGPT 學(xué)習(xí)訓(xùn)練圖(來(lái)源官網(wǎng))
它將海量的文本、圖片等等非結(jié)構(gòu)化的文件,通過NLP(自然語(yǔ)言處理)、目標(biāo)識(shí)別、多模態(tài)識(shí)別等,按其語(yǔ)義結(jié)構(gòu)化成知識(shí)圖譜,這個(gè)知識(shí)圖譜就是聊天機(jī)器人的大腦了。
圖3:以醫(yī)療為例,人工智能將多來(lái)源的數(shù)據(jù)轉(zhuǎn)化在問答、搜索、藥物研發(fā)等場(chǎng)景的知識(shí)圖譜中
知識(shí)圖譜是由什么組成的呢?
知識(shí)圖譜是由什么組成的呢?它是由點(diǎn)(實(shí)體)和邊(關(guān)系)組成的,能夠?qū)⑷恕⑹?、物等相關(guān)信息進(jìn)行整合,形成一個(gè)全面的圖,如下圖。
圖4:由人物的點(diǎn)和屬性邊構(gòu)成的圖譜(子圖)
當(dāng)提問“OpenAI 的創(chuàng)始人是誰(shuí)呀?”,聊天機(jī)器人的大腦就開始迅速地在自己的知識(shí)庫(kù)里搜索、查找,先從用戶的問句中,鎖定目標(biāo)點(diǎn)“penAI”,再根據(jù)用戶的提問,連鎖出另一個(gè)點(diǎn)——?jiǎng)?chuàng)始人“山姆·阿爾特曼”。
圖5:從點(diǎn)“OpenAI”通過一條邊連接到另一個(gè)點(diǎn)“山姆·阿爾特曼”
其實(shí),當(dāng)我們?cè)谔帷癘penAI的創(chuàng)始人是誰(shuí)"的時(shí)候,聊天機(jī)器人就會(huì)在自己的知識(shí)庫(kù)中,把所有圍繞該點(diǎn)的圖都關(guān)聯(lián)出來(lái)。所以,當(dāng)我們問及相關(guān)問題的時(shí)候,它其實(shí)早已預(yù)判了我們的預(yù)判。比如當(dāng)我們問:“馬斯克是OpenAI的創(chuàng)始團(tuán)隊(duì)成員嗎?”僅僅一個(gè)命令的發(fā)出,它已經(jīng)將所有的成員都查詢了(舉千反一),見下圖。
圖6:由點(diǎn)“OpenAI”關(guān)聯(lián)到其他人物
此外,在它的庫(kù)里如果還收錄過其他的“學(xué)習(xí)資料”,那么在其的“大腦”中還會(huì)關(guān)聯(lián)著諸如“人工智能機(jī)器人的產(chǎn)品有哪些?”等相關(guān)的圖,如下圖。
圖7:常見的AI機(jī)器人產(chǎn)品圖譜
當(dāng)然,聊天機(jī)器人和人一樣,回答問題會(huì)受到自身知識(shí)儲(chǔ)備的局限,如見下圖:
我們知道,決定一個(gè)人大腦快不快、聰明不聰明的判斷是什么呢?從人類的視角來(lái)看,最簡(jiǎn)單的一個(gè)標(biāo)準(zhǔn)就是是否具備舉一反三的能力。
子曰:“不憤不啟,不悱不發(fā),舉一隅不以三隅反,則不復(fù)也?!?/span>
——論語(yǔ)·述而篇
早在兩千年前,孔子就強(qiáng)調(diào)過善于舉一反三、由此及彼、觸類旁通的重要性。而對(duì)于聊天機(jī)器人來(lái)說(shuō),其答案的質(zhì)量取決于構(gòu)建知識(shí)圖譜的算力。
我們知道,通用的知識(shí)圖譜的建設(shè)在很長(zhǎng)一段時(shí)間內(nèi)都著重在 NLP和可視化呈現(xiàn)等方面,但忽略了計(jì)算時(shí)效性、數(shù)據(jù)建模靈活性、查詢(計(jì)算)過程與結(jié)果可解釋性等問題。尤其是在整個(gè)世界從大數(shù)據(jù)時(shí)代向深數(shù)據(jù)時(shí)代轉(zhuǎn)型的當(dāng)下,過去傳統(tǒng)的基于SQL或 NoSQL構(gòu)建的圖譜的缺陷,已無(wú)法高效去處理海量、復(fù)雜、動(dòng)態(tài)的數(shù)據(jù)的能力,更何談進(jìn)行關(guān)聯(lián)、挖掘和分析的洞察力?那么,傳統(tǒng)知識(shí)圖譜面臨的挑戰(zhàn)都有什么特性呢?
一是,低算力(低效)。采用SQL 或 NoSQL 數(shù)據(jù)庫(kù)系統(tǒng)構(gòu)建的知識(shí)圖譜底層架構(gòu)效率低下,無(wú)法高速地處理高維數(shù)據(jù)。
二是,靈活性差。基于關(guān)系型數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)或低性能圖數(shù)據(jù)庫(kù)構(gòu)建的知識(shí)圖譜通常受制于底層架構(gòu)而無(wú)法高效地還原實(shí)體間的真實(shí)關(guān)系。諸如,它們有些只支持簡(jiǎn)單圖,錄入多邊圖數(shù)據(jù)時(shí)要么信息容易丟失,要么花高代價(jià)來(lái)構(gòu)圖。
三是,徒有其表。在2020 年之前, 極少有人真正關(guān)注底層算力,幾乎所有的知識(shí)圖譜系統(tǒng)建設(shè),都僅僅是圍繞 NLP 和可視化這兩部分。而沒有底層算力支撐的知識(shí)圖譜,只是在本體與三元組的抽取和構(gòu)建,并不具備解決深度的查詢、速度和可解釋性等問題的能力。
【注:在這里,我們不展開講傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)與圖數(shù)據(jù)庫(kù)之間的性能對(duì)比,感興趣的讀者可閱讀:??圖數(shù)據(jù)庫(kù)與關(guān)系型數(shù)據(jù)庫(kù)的區(qū)別????和 ?圖數(shù)據(jù)庫(kù)解決了什么問題??】
行文至此,我們已經(jīng)從聊天機(jī)器人的智能知識(shí)圖譜話題,聊到了另一個(gè)前沿技術(shù)——圖數(shù)據(jù)庫(kù)(圖計(jì)算)技術(shù)領(lǐng)域了。
什么是圖數(shù)據(jù)庫(kù)(圖計(jì)算)呢?
圖數(shù)據(jù)庫(kù)【見參考資料1】是一種應(yīng)用圖理論,可以存儲(chǔ)實(shí)體的屬性信息和實(shí)體之間的關(guān)系信息,在定義方面,圖(Graph)是以節(jié)點(diǎn)【見參考資料2】和邊【見參考資料2】定義的數(shù)據(jù)結(jié)構(gòu)。
圖是知識(shí)圖譜存儲(chǔ)與應(yīng)用服務(wù)的基礎(chǔ),擁有強(qiáng)大的數(shù)據(jù)關(guān)聯(lián)及知識(shí)表達(dá)能力,因此倍受學(xué)術(shù)界和工業(yè)界的推崇。
圖8:圖數(shù)據(jù)庫(kù)與知識(shí)圖譜在市場(chǎng)營(yíng)銷、犯罪調(diào)查、金融監(jiān)管、教育生態(tài)、公共衛(wèi)生和能源等領(lǐng)域中的應(yīng)用場(chǎng)景
如上圖所示,我們看到,在實(shí)時(shí)圖數(shù)據(jù)庫(kù)(圖計(jì)算)引擎的幫助下,產(chǎn)業(yè)界可以實(shí)時(shí)地在不同數(shù)據(jù)間找到深度關(guān)聯(lián)的各種關(guān)系,甚至可以找到最優(yōu)的、人腦都無(wú)法企及的智能途徑——這就是源于圖數(shù)據(jù)庫(kù)的高維性。
何為高維性?圖不僅僅作為一種符合人類大腦思維習(xí)慣、能對(duì)現(xiàn)實(shí)世界進(jìn)行直觀建模的工具,同時(shí)能夠建立起深刻的洞察(深圖遍歷)力。
諸如大家都知道“蝴蝶效應(yīng)”,就是在海量的數(shù)據(jù)和信息的中,去捕捉看似毫無(wú)關(guān)系的兩個(gè)以上的實(shí)體之間的微妙關(guān)系,這從數(shù)據(jù)處理架構(gòu)的角度來(lái)看,如果沒有圖數(shù)據(jù)庫(kù)(圖計(jì)算)技術(shù)的幫助是極難實(shí)現(xiàn)的。【注:對(duì)圖數(shù)據(jù)庫(kù)與圖計(jì)算到底如何區(qū)分的話題,此處不展開,感興趣的朋友可閱讀:來(lái)自“圖”的挑戰(zhàn)是什么?如何區(qū)分圖數(shù)據(jù)庫(kù)與圖計(jì)算? 一文速解】
圖9:過去40年來(lái),數(shù)據(jù)處理技術(shù)的發(fā)展趨勢(shì)是從關(guān)系型到大數(shù)據(jù)再到圖數(shù)據(jù)
風(fēng)控就是典型的場(chǎng)景之一。2008年的金融危機(jī),其導(dǎo)火索僅僅是美國(guó)第四大投行雷曼兄弟倒閉了,但誰(shuí)也沒有料到,一家擁有158年歷史的投行的倒閉,會(huì)引起國(guó)際銀行業(yè)后續(xù)的一系列倒閉風(fēng)潮……其影響之廣、范圍之大,讓人始料未及;而實(shí)時(shí)圖數(shù)據(jù)庫(kù)(圖計(jì)算)技術(shù),就可以找到關(guān)于風(fēng)險(xiǎn)的所有關(guān)鍵的節(jié)點(diǎn)、風(fēng)險(xiǎn)因子,風(fēng)險(xiǎn)傳播路徑……進(jìn)而對(duì)整個(gè)金融風(fēng)險(xiǎn)進(jìn)行提前預(yù)警。
圖10:雷曼兄弟(Lehman Brothers)破產(chǎn)傳播路徑以及風(fēng)險(xiǎn)客群圖譜
【注:以上構(gòu)圖,均在Ultipa Manager上完成。愿意進(jìn)一步學(xué)習(xí)和探索的朋友,可以閱讀系列文章之一: 走進(jìn) Ultipa Manager之高可視化】
需要指出的是,時(shí)下,盡管很多廠家都可以構(gòu)造知識(shí)圖譜,但現(xiàn)實(shí)是每 100 家圖譜公司中,用(高性能)圖數(shù)據(jù)庫(kù)來(lái)做算力支撐的不足 5 家(低于 5%)。
Ultipa嬴圖數(shù)據(jù)庫(kù)是目前全球唯一的第四代實(shí)時(shí)圖數(shù)據(jù)庫(kù),通過高密度并發(fā)、動(dòng)態(tài)剪枝、多級(jí)存儲(chǔ)計(jì)算加速等創(chuàng)新性的專利技術(shù)實(shí)現(xiàn)了對(duì)任意量級(jí)數(shù)據(jù)集的超深度實(shí)時(shí)下鉆。
一是,高算力。
以查找企業(yè)最終受益人(又名實(shí)際控制人、大股東)為例。此類問題的挑戰(zhàn)在于,現(xiàn)實(shí)世界中,最終受益人與被檢查公司實(shí)體之間,經(jīng)常相隔許多節(jié)點(diǎn)(空殼公司實(shí)體),又或者多個(gè)自然人或公司實(shí)體之間通過多條投資、參股路徑對(duì)其它公司進(jìn)行控制。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)或文檔數(shù)據(jù)庫(kù),甚至多數(shù)的圖數(shù)據(jù)庫(kù),都無(wú)法實(shí)時(shí)解決這類圖譜穿透問題。
Ultipa嬴圖實(shí)時(shí)圖數(shù)據(jù)庫(kù)系統(tǒng)解決了以上諸多挑戰(zhàn)。其高并發(fā)數(shù)據(jù)結(jié)構(gòu)和高性能計(jì)算與存儲(chǔ)引擎,相較于其他圖系統(tǒng)能以 100 倍甚至更快的速度進(jìn)行深度挖掘,實(shí)時(shí)(微秒級(jí)以內(nèi))找到最終受益人或發(fā)現(xiàn)一個(gè)龐大的投資關(guān)系網(wǎng)絡(luò)。另一方面,微秒級(jí)的時(shí)延意味著更高的并發(fā)性和系統(tǒng)吞吐量,相比于那些宣稱毫秒級(jí)延遲的系統(tǒng),這是 1000 倍的性能提升!
以現(xiàn)實(shí)場(chǎng)景為例,原中信銀行行長(zhǎng)孫德順利用開設(shè)多個(gè)“影子公司”的方式,借助金融手段來(lái)完成利益輸送。
圖11:孫德順設(shè)計(jì)了結(jié)構(gòu)極為復(fù)雜的重重“防火墻”,多層影子公司層層嵌套,以規(guī)避監(jiān)管,獲取利益
圖12:關(guān)聯(lián):孫德順——中信銀行——企業(yè)老板——(空殼公司)投資平臺(tái)公司——孫德順
如上圖所示,孫德順利用中信銀行的公權(quán)力為企業(yè)老板批貸款;與此對(duì)應(yīng),企業(yè)老板們或以投資名義或送上優(yōu)質(zhì)的投資項(xiàng)目、投資機(jī)會(huì)等等方式;雙方通過各自成立的空殼公司完成直接交易;或者企業(yè)老板將巨資注入孫德順實(shí)控的投資平臺(tái)公司,然后平臺(tái)公司再用這些資金投到老板提供的項(xiàng)目?jī)?nèi),從而以錢生錢,大家共同獲利分紅,最終形成利益共同體。
Ultipa嬴圖實(shí)時(shí)圖數(shù)據(jù)庫(kù)系統(tǒng),通過白盒穿透的方式,挖掘出層層錯(cuò)綜的人與人、人與企業(yè)、企業(yè)與企業(yè)之間的復(fù)雜關(guān)系,并實(shí)時(shí)鎖定最終的幕后人。
二是,靈活性。
圖譜系統(tǒng)的靈活性可以是個(gè)非常廣泛的話題,大體包含數(shù)據(jù)建模、查詢與計(jì)算邏輯、結(jié)果呈現(xiàn)、接口支持、可擴(kuò)展性等幾個(gè)部分。
數(shù)據(jù)建模是所有關(guān)系圖譜的基礎(chǔ),與圖系統(tǒng)(圖數(shù)據(jù)庫(kù))的底層能力息息相關(guān)。例如,基于ClickHouse 這種列數(shù)據(jù)庫(kù)構(gòu)建的圖數(shù)據(jù)庫(kù)系統(tǒng),根本無(wú)法承載金融交易圖譜,因?yàn)榻灰拙W(wǎng)絡(luò)最典型的特征就是兩個(gè)賬戶間存在多次轉(zhuǎn)賬,但 ClickHouse 傾向于將多次轉(zhuǎn)賬合并為一,這種不合理的做法會(huì)導(dǎo)致數(shù)據(jù)混淆(失真)。有些基于單邊圖理念構(gòu)建的圖數(shù)據(jù)庫(kù)系統(tǒng),則傾向于用頂點(diǎn)(實(shí)體)來(lái)表達(dá)交易,結(jié)果是數(shù)據(jù)量被放大(存儲(chǔ)浪費(fèi)),并且造成圖譜查詢的復(fù)雜度指數(shù)級(jí)增大(時(shí)效性變差)。
接口支持層面則與用戶體驗(yàn)相關(guān)。舉個(gè)簡(jiǎn)單的例子,如果一個(gè)生產(chǎn)環(huán)境下的圖系統(tǒng)僅支持CSV格式,那么所有的數(shù)據(jù)格式都要先轉(zhuǎn)換為CSV格式才能入圖,效率顯然太低,然而這在很多圖譜系統(tǒng)中卻是真實(shí)存在的。
查詢與計(jì)算邏輯的靈活性又如何呢?我們?nèi)砸浴昂?yīng)”為例:圖譜中任意兩個(gè)人、事或物之間是否存在某種冥冥中的因果(強(qiáng)關(guān)聯(lián))效應(yīng)?如果只是簡(jiǎn)單的 1 步關(guān)聯(lián),任何傳統(tǒng)的搜索引擎、大數(shù)據(jù) NoSQL 框架甚至關(guān)系型數(shù)據(jù)庫(kù)都可以解決,但如果是深度的關(guān)聯(lián)關(guān)系,例如牛頓和成吉思汗之間有什么關(guān)聯(lián)關(guān)系,這又該如何計(jì)算呢?
Ultipa嬴圖實(shí)時(shí)圖數(shù)據(jù)系統(tǒng),可以提供不止一種方法來(lái)解決以上問題。比如點(diǎn)到點(diǎn)的深度路徑搜索、多點(diǎn)間的組網(wǎng)搜索、基于某種模糊搜索條件的模板匹配搜索,還有類似于Web搜索引擎的面向圖譜的模糊文本路徑搜索。
圖13:某大圖中實(shí)時(shí)組網(wǎng)的可視化結(jié)果(形成子圖)搜索深度≥ 6跳
圖譜上還有其它很多必須依賴高靈活性與算力才可以完成的工作,比如依據(jù)靈活的過濾條件尋找點(diǎn)、邊、路徑;模式識(shí)別,社區(qū)、客群發(fā)現(xiàn);尋找節(jié)點(diǎn)的全部或特定鄰居(或遞歸地發(fā)現(xiàn)更深的鄰居);找到圖中具有相似屬性的實(shí)體或關(guān)聯(lián)關(guān)系……總之,沒有圖算力支撐的知識(shí)圖譜就像是沒有靈魂的軀殼,空有其表。無(wú)法完成種種具有挑戰(zhàn)性、深度搜索能力的事務(wù)。
三是,低代碼,所見即所得。
圖譜系統(tǒng)除了上面提到的高算力與靈活性以外,還需要有白盒化(可解釋性)、表單化(低代碼、無(wú)代碼)以及以所見即所得的方式賦能業(yè)務(wù)的能力。
圖14:零代碼一鍵查找,僅需填入搜索范圍的數(shù)值即可,且2D、3D 、列表、表格甚至是異構(gòu)數(shù)據(jù)融合的多種可視模式靈活轉(zhuǎn)化
在Ultipa嬴圖實(shí)時(shí)圖數(shù)據(jù)庫(kù)系統(tǒng)中,開發(fā)人員只需敲1句 Ultipa GQL就可以完成操作,而業(yè)務(wù)人員則是使用預(yù)置的表單化插件通過零代碼的方式就可以實(shí)現(xiàn)對(duì)業(yè)務(wù)的查詢。這種方式,極大地助力員工提高了工作效率,同時(shí)賦能機(jī)構(gòu)降低了運(yùn)營(yíng)成本,并打通了部門之間的溝通壁壘。
綜上所述,知識(shí)圖譜與圖數(shù)據(jù)庫(kù)的結(jié)合將會(huì)幫助各行各業(yè)加速實(shí)現(xiàn)數(shù)據(jù)中臺(tái)的業(yè)務(wù)建設(shè),但諸如金融行業(yè)這種需要專業(yè)性、安全性、穩(wěn)定性、實(shí)時(shí)性、精準(zhǔn)性的行業(yè),采用關(guān)系型數(shù)據(jù)庫(kù)來(lái)支撐上層應(yīng)用并不能提供良好的數(shù)據(jù)處理性能,甚至無(wú)法完成數(shù)據(jù)處理任務(wù),因此只有實(shí)現(xiàn)具有實(shí)時(shí)、全面、深度穿透、逐筆追溯、精準(zhǔn)計(jì)量的監(jiān)測(cè)和預(yù)警性能的圖數(shù)據(jù)庫(kù)(圖計(jì)算)技術(shù),才可能賦能組織更好地運(yùn)籌帷幄且決勝千里!
行文至此,突然想起了熱播的《三體》,其中提到了一個(gè)非常有意思的點(diǎn)——智子鎖死。大概意思是說(shuō),三體文明為了防止地球科技超過它,就通過鎖死人類基礎(chǔ)科學(xué)的方式進(jìn)行各種阻礙。因?yàn)槿祟愇拿鞯娘w躍,取決于基礎(chǔ)科學(xué)的發(fā)展和重大突破,鎖死人類的基礎(chǔ)科學(xué)就等于堵塞住了地球提升文明等級(jí)的道路……當(dāng)然,筆者想告訴大家的是,圖技術(shù)就屬于人工智能的基礎(chǔ)設(shè)施之一,準(zhǔn)確的說(shuō)是圖技術(shù)=增強(qiáng)智能+可解釋 AI,它是 AI 與大數(shù)據(jù)發(fā)展過程中融合的必然產(chǎn)物。
圖15:圖數(shù)據(jù)庫(kù)(圖計(jì)算)技術(shù),屬于人工智能基礎(chǔ)設(shè)施