2022年8月6日-7日,??AISummit 全球人工智能技術大會??如期舉辦。在7日下午舉辦的《AI賦能產業(yè)實踐》分論壇上,泰凡科技副總經理馬國寧帶來了《圖繪萬象,從柯尼斯堡到百業(yè)賦能》的主題分享,詳細分享了知識圖譜在千行百業(yè)中的賦能。
愚公如果是AI,能不能移山?
如果把愚公當成是AI,那他能不能移山?又是如何進行移山的?
馬國寧表示,在人工智能行業(yè),每一個垂直領域都是一座大山。例如在金融、工業(yè)、政務等行業(yè)中,利用算法去解決行業(yè)特定問題時,大家會發(fā)現(xiàn)它與最初的設計和落地總是不同的,主要原因是由于我們的算法邏輯不一定能夠匹配行業(yè)的業(yè)務邏輯。最開始解決這個問題的方式是利用數(shù)據智能和計算智能,依靠堆數(shù)據量進行訓練,但是這種方法在后期也會出現(xiàn)一些瓶頸。為此,我們又開始利用人臉識別、聲音識別等感知智能的方式去解決一些場景中出現(xiàn)的問題。
當感知智能也遇到瓶頸,最新的方式是利用認知智能的算法來解決。那么,認知智能是否能模擬人的思維認知過程,去解決龐雜的疑難問題呢?
在認知智能領域,谷歌很早就利用知識圖譜進行了嘗試,把所有知識裝到同一個圖譜中,模擬人的思維以及推理演繹的過程。但是,自谷歌提出這個想法之后,至少到目前為止仍然沒有辦法去做到完全模擬人的思維過程。雖然圖譜的構建過程并不復雜,但數(shù)據量足夠大之后,就會遇到各種問題。例如,WolframAlpha超過10億的實體,DBpedia超過30億的三元組,谷歌目前實體已經超過5億,關系連接超過百億,微軟Probase僅概念的總量就已經有千萬級別。這種情況下,先不談應用,僅僅做搜索和查詢分析就已經很難了。
很多學者認為一個單點或者一個集群解決不了,就用兩個集群乃至十幾個集群解決這個問題。實際上,在知識圖譜里是很難進行堆集群量的,主要原因是在如此龐大的實體和節(jié)點相關聯(lián)的情況下,很難讓數(shù)據分離開。
AI向產業(yè)賦能,誰向AI賦能?
本來想利用AI向產業(yè)賦能,但是從計算智能到感知智能、認知智能,現(xiàn)在AI也需要有人向它賦能。那該怎么辦?
馬國寧認為,方法就是站在巨人的肩膀上。
上圖中的柯尼斯堡是一個小城鎮(zhèn),但是它在數(shù)學界或者在圖論界非常有名,主要是因為一個很偉大的數(shù)學家歐拉,在1736年解決了柯尼斯堡七橋問題,開創(chuàng)了一個新的數(shù)學分支圖論。知識圖譜應用于集群或者分布式環(huán)境,需要用數(shù)學理論的基礎解決這些問題。
因此,計算機問題解決到一定程度時就會歸結到數(shù)學問題上,在處理大規(guī)模知識圖譜時需要對知識圖譜進行劃分,重新利用算力解決分布式問題。那么,在劃分的過程中,如何讓分區(qū)之后的知識圖譜之間的關聯(lián)性最???為此,在這方面我們需要用到業(yè)內成型的或者前沿的算法,在滿足數(shù)據規(guī)模跟分布式要求的同時滿足圖劃分。
但是,目前公開實現(xiàn)或記載的算法并不能完全解決所有的問題,一個是集群化問題,一個是分布式問題。因為在最小化切割邊或者頂點數(shù)量情況下,很難同時滿足各個機器之間的負載平衡和通信成本問題。
如何解決這些問題呢?我們的方式是對于沒有權重的簡單圖,在指數(shù)內部把復雜度降到一個常數(shù)的程度。在有權圖上,把其中的一個指數(shù)降到常數(shù)的復雜度,這都是比較前沿的研究成果。在超圖領域,最終要把超圖的切割問題作為次膜k-part的特例,在確定K值的情況下,進行求解是完全沒有問題的。
舉例說明,對于一個簡單圖,有三條線的切割,在真正實踐中可以簡單的理解為把整個知識圖譜切成三個集群的劃分知識圖譜。其中對于S2這個知識節(jié)點進行獨立切割,另外一邊S2是一個最小獨立切割,這是我們作為一個簡單的形象化描述,方便大家理解為什么把這個圖分開。
從效果來講,像METIS算法它在最小化跨越分區(qū)的頂點數(shù)上面,和后面的知識挖掘的時間上面比較均衡;像Hash算法,或者JA-BE-JA算法,在其中一方面可能表現(xiàn)不盡如人意,但是METIS算法表現(xiàn)是比較均衡的。
知識圖譜與百業(yè)賦能
基于技術和行業(yè)的研究,泰凡科技構建了一套知識圖譜平臺,上層是應用服務體系,包括檢索、知識的可視化查詢、智能問答,底層把知識圖譜的“五臟六腑”構建好。實際上,圖譜最開始是一個語義問題,是基于語義網發(fā)展而來的。語義庫的管理,包括知識如何更新、更新的顆粒度有多大、還有相關領域要覆蓋多少實體、覆蓋多少映射關系等,泰凡科技都會放在整體框架中。因此,這是一個非常通用的框架平臺,適用于各行各業(yè)。
除此之外,整個框架中還集成了實際應用中的必備功能,比如要實現(xiàn)知識庫全生命周期的管理,包括智能推薦、檢索、擴展性,這些都是在產業(yè)落地實踐中必須去考慮的問題。此外,很多關系探索挖掘,是可以依靠知識挖掘來解決。
在接下來的時間里,馬國寧通過智慧園區(qū)、智慧樓宇、智慧交通、智慧航空、智慧科學數(shù)據分析等場景案例,詳細介紹了知譜圖譜在各行各業(yè)的實際應用。
“科技創(chuàng)新的星辰大海,未來的無限可能性,是更令人心潮澎湃的,這一點我深以為然?!瘪R國寧表示,希望通過這次分享,能讓更多的同行,或者其他有志于加入這個行業(yè)的從業(yè)者,能夠更有信心的去應用人工智能技術,賦能千行百業(yè)。