“神經(jīng)+符號(hào)”:從知識(shí)圖譜角度看認(rèn)知推理的發(fā)展
在過去十年的人工智能浪潮中,以深度學(xué)習(xí)為代表的人工智能技術(shù)已基本實(shí)現(xiàn)了視覺、聽覺等感知智能,但依然無法很好地做到思考、推理等認(rèn)知智能。因此,具有推理、可解釋性等能力的認(rèn)知智能研究毫無疑問將越來越受到重視,成為未來人工智能領(lǐng)域重要的發(fā)展方向之一。
研究人員的嗅覺無疑是最敏銳的。例如,ACM圖靈獎(jiǎng)獲得者約書亞·本吉奧(Yoshua Bengio)在NeuIPS 2019的特邀報(bào)告中明確提到,深度學(xué)習(xí)需要從系統(tǒng)1(System 1)到系統(tǒng)2(System 2)轉(zhuǎn)化。
注:這里所說的System 1和System 2是指認(rèn)知科學(xué)中的雙通道理論,其中System 1表示直覺的、快速的、無意識(shí)的、非語言的、習(xí)慣的認(rèn)知系統(tǒng),這也是目前深度學(xué)習(xí)技術(shù)擅長(zhǎng)的事情;System 2則表示慢的、有邏輯的、有序的、有意識(shí)的、可用語言表達(dá)以及可推理的系統(tǒng),這是未來深度學(xué)習(xí)需要著重考慮的研究方向。
1 神經(jīng)系統(tǒng)和符號(hào)系統(tǒng)的特點(diǎn)
從更宏觀的角度來看人工智能,System 1對(duì)應(yīng)的是神經(jīng)(Neural)學(xué)派, System 2則對(duì)應(yīng)符號(hào)(Symbolic)學(xué)派,Bengio所提的System 2關(guān)于深度學(xué)習(xí)的想法與“神經(jīng)+符號(hào)”的人工智能目標(biāo)基本一致。
沿著這一點(diǎn)追溯,我們可以發(fā)現(xiàn)另一位ACM圖靈獎(jiǎng)得主馬文·明斯基(Marvin Minsky)早于1986年在《心智社會(huì)》(The Society of Mind)一書中就清楚地闡述了人工智能和認(rèn)知心理學(xué)(即System 1和System 2)之間的關(guān)系,并深入分析了人工智能中的神經(jīng)系統(tǒng)和符號(hào)系統(tǒng)各自的特點(diǎn)和結(jié)合的可能,如圖1所示。
從宏觀再到具體,以數(shù)據(jù)的對(duì)象、存儲(chǔ)以及應(yīng)用來說,無論是神經(jīng)系統(tǒng)還是符號(hào)系統(tǒng),數(shù)據(jù)建模的目的都是求解給定輸入問題的答案,如圖2所示。但不同之處在于,神經(jīng)系統(tǒng)擅長(zhǎng)處理非結(jié)構(gòu)化的數(shù)據(jù)(如文本等)。
目前的主流模型以端到端為主,常見的應(yīng)用場(chǎng)景有機(jī)器翻譯、語音識(shí)別、簡(jiǎn)單問題智能問答(如,姚明的身高是多少?)等;而符號(hào)系統(tǒng)主要以結(jié)構(gòu)化的數(shù)據(jù)庫(kù)為主,且通常支持結(jié)構(gòu)化的查詢、推理引擎等,能夠?qū)崿F(xiàn)復(fù)雜問題的求解(如,美國(guó)是農(nóng)業(yè)出口大國(guó),為什么還要進(jìn)口咖啡?)。
值得一提的是,ACM圖靈獎(jiǎng)獲得者萊斯利·瓦利安特(Leslie Valiant)曾精辟地指出:神經(jīng)系統(tǒng)側(cè)重對(duì)數(shù)據(jù)特征的學(xué)習(xí)過程,而符號(hào)系統(tǒng)包含的一定是一個(gè)搜索過程,后續(xù)大量面向符號(hào)系統(tǒng)的研究本質(zhì)上致力于各種高效的搜索算法。
神經(jīng)系統(tǒng)和符號(hào)系統(tǒng)各自的特點(diǎn)還可以通過兩個(gè)計(jì)算機(jī)視覺領(lǐng)域應(yīng)用中的例子來體會(huì):圖3(a)的例子表示經(jīng)典的手寫體識(shí)別,對(duì)于給定可觀察的手寫數(shù)字和比較符樣本集合,在經(jīng)過訓(xùn)練后,大量神經(jīng)系統(tǒng)的模型可以很好地識(shí)別各類手寫體(即視覺層次的泛化認(rèn)知能力),但卻很難實(shí)現(xiàn)符號(hào)知識(shí)的認(rèn)知泛化(即對(duì)于未出現(xiàn)在訓(xùn)練樣本中的比較符樣例,難以進(jìn)行求解判斷)。
同樣,在圖3(b)的視覺問答例子中,神經(jīng)系統(tǒng)可以輕松應(yīng)對(duì)簡(jiǎn)單的視覺問答場(chǎng)景(如,圖中有幾只長(zhǎng)頸鹿?),但是如果需要回答更復(fù)雜的問題(如,圖中動(dòng)物和斑馬有哪些共同屬性?),則必須借助外部的符號(hào)知識(shí)(如知識(shí)圖譜)進(jìn)行認(rèn)知推理,才能完成求解過程。
綜上所述,“神經(jīng)+符號(hào)”系統(tǒng)無疑是人工智能的理想模型。我們可以總結(jié)出一個(gè)完美的“神經(jīng)+符號(hào)”系統(tǒng)的特點(diǎn)和優(yōu)勢(shì):
1.可以輕松處理目前主流機(jī)器學(xué)習(xí)擅長(zhǎng)的問題;
2. 對(duì)于數(shù)據(jù)噪音有較強(qiáng)的魯棒性;
3. 系統(tǒng)的求解過程和結(jié)果容易被人理解、解釋和評(píng)價(jià);
4. 可以很好地對(duì)各類符號(hào)進(jìn)行操作;
5. 可以無縫地利用各種背景知識(shí)。
然而,實(shí)現(xiàn)“神經(jīng)+符號(hào)”的有機(jī)結(jié)合并不容易。多年來,各個(gè)領(lǐng)域的人工智能研究者對(duì)此進(jìn)行了大量研究。知識(shí)圖譜作為近年來熱門的人工智能研究方向,從早期的知識(shí)庫(kù)、專家系統(tǒng),到谷歌公司在2012年正式提出知識(shí)圖譜,其發(fā)展歷程也可以看作神經(jīng)系統(tǒng)和符號(hào)系統(tǒng)各自的發(fā)展縮影,其中包括“神經(jīng)+符號(hào)”結(jié)合的多次嘗試,如圖4所示。
2 “神經(jīng)+符號(hào)”的結(jié)合
筆者從知識(shí)圖譜領(lǐng)域的研究視角對(duì)目前的工作梳理總結(jié)后發(fā)現(xiàn),“神經(jīng)+符號(hào)”的結(jié)合工作主要可以分為兩類:
神經(jīng)助力符號(hào)(neural for symbolic)這類方法的特點(diǎn)在于將神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用在傳統(tǒng)符號(hào)系統(tǒng)的問題求解,通常主要用來解決淺層次的推理問題。
例如采用知識(shí)圖譜表示學(xué)習(xí)(knowledge graph embedding)[1]、圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)[2]等技術(shù)進(jìn)行知識(shí)圖譜的補(bǔ)全,其特點(diǎn)是用統(tǒng)計(jì)推理代替邏輯演繹;還有采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)等技術(shù)進(jìn)行多跳智能問答[3],也是類似的工作,如圖5所示。
此外,Swift Logic[3]、神經(jīng)理論證明機(jī)[4]、邏輯張量網(wǎng)絡(luò)[5]等工作也屬于“神經(jīng)”助力“符號(hào)”的嘗試,其主要思想是改進(jìn)神經(jīng)網(wǎng)絡(luò)的方法,將其應(yīng)用到知識(shí)圖譜領(lǐng)域的深層推理場(chǎng)景,進(jìn)而提升效果。
符號(hào)神經(jīng)(symbolic for neural)這類方法的特點(diǎn)在于將符號(hào)的方法應(yīng)用在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中。例如,使用邏輯規(guī)則在深度神經(jīng)網(wǎng)絡(luò)中進(jìn)行數(shù)據(jù)的編審(data curation)[6];將知識(shí)圖譜應(yīng)用在遠(yuǎn)程監(jiān)督、少樣本、零樣本的模型和場(chǎng)景中[7,8],如圖6所示。
最近有一類研究叫做可解釋的人工智能(explainable AI)[9],其主要思想是利用知識(shí)圖譜中的事實(shí)或規(guī)則,對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的行為進(jìn)行解釋,進(jìn)而提高神經(jīng)網(wǎng)絡(luò)的可解釋性。值得一提的是,清華大學(xué)唐杰等人最新提出的認(rèn)知圖譜[10],就是“神經(jīng)+符號(hào)”與“System 1+System 2”在可解釋人工智能方面的嘗試,旨在用符號(hào)知識(shí)的表示、推理和決策來解決深度學(xué)習(xí)求解過程的黑盒問題。
3 總結(jié)與展望
以上的研究現(xiàn)狀表明,“神經(jīng)+符號(hào)”的結(jié)合仍停留在僅以一方為主,并到另一方問題的適用或遷移,實(shí)現(xiàn)“神經(jīng)+符號(hào)”真正有機(jī)結(jié)合的系統(tǒng)還任重道遠(yuǎn)。如何在神經(jīng)和符號(hào)之間取得一個(gè)巧妙的平衡,將是衡量模型價(jià)值的關(guān)鍵,其范圍涉及了目前幾乎所有主流的人工智能研究,如圖7所示。
未來關(guān)于“神經(jīng)+符號(hào)”的研究中可能涉及到的關(guān)鍵問題和挑戰(zhàn)包括:
1. 知識(shí)的表示:建模多模態(tài)、時(shí)空、事件等非結(jié)構(gòu)化數(shù)據(jù)的符號(hào)知識(shí)表達(dá);
2. 推理的實(shí)用性和效率:將神經(jīng)的方法用來實(shí)現(xiàn)深層推理或加速傳統(tǒng)符號(hào)推理的效率;
3. 人在回路和可解釋性:將專家或用戶的反饋加入系統(tǒng)考慮并確保系統(tǒng)求解過程的可解釋性。
參考文獻(xiàn):
[1] Wang Q , Mao Z , Wang B , et al. Knowledge Graph Embedding: A Survey of Approaches and Applications[J]. IEEE Transactions on Knowledge & Data Engineering, 2017, 29(12):2724-2743.
[2] Zhang M, Chen Y. Link Prediction Based on Graph Neural Networks[C]// Neural Information Processing Systems, 2018: 5171-5181.
[3] Jain S . Question Answering over Knowledge Base using Factual Memory Networks[C]// Proceedings of the NAACL Student Research Workshop. 2016.
[4] Rocktaschel T, Riedel S. End-to-end differentiable proving[C]// Neural Information Processing Systems, 2017: 3788-3800.
[5] Socher R, Chen D, Manning C D, et al. Reasoning With Neural Tensor Networks for Knowledge Base Completion[C]// Neural Information Processing Systems, 2013: 926-934.
[6] Hu Z, Ma X, Liu Z, et al. Harnessing Deep Neural Networks with Logic Rules[C]// Meeting of the Association for Computational Linguistics, 2016: 2410-2420.
[7] Zeng D, Liu K, Chen Y, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]// Empirical Methods in Natural Language Processing, 2015: 1753-1762..
[8] Chang X, Zhu F, Bi X, et al. Mining knowledge graphs for vision tasks[C]// Database Systems for Advanced Applications, 2019: 592-594.
[9] Samek W , Grégoire Montavon, Vedaldi A , et al. Explainable AI: Interpreting, Explaining and Visualizing Deep Learning[M]. Vol. 11700. 2019: Springer Nature.
[10] Ding M, Zhou C, Chen Q, et al. Cognitive graph for multi-hop reading comprehension at scale [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 2694-2703.