大數(shù)據(jù)挖掘機器學(xué)習(xí)人工智能的維恩圖戰(zhàn)爭
馬上要召開半年會了,老板說,大家要做好規(guī)劃,以后我們方向不再是機器學(xué)習(xí)了,而是人工智能。原話怎么說的,我已經(jīng)忘記,只記得當(dāng)時聽著特別難受,于是我當(dāng)場就提出了,到底什么是機器學(xué)習(xí)?什么是人工智能?BD小姑娘特別積極說,我知道我知道,就去黑板上畫了三個方塊。類似下面的這樣:
這也不是原圖,類似這樣的意思,比較簡略的關(guān)系。(記憶真是太不靠譜的東西!)我不以為然,***想到的圖是題圖,也很簡略地去白板上畫了下,每個人同學(xué)又各抒己見了下,引起一片笑聲。雖然這個事情就過去,但是我這個人,在這種場景下,就沒有“過去”,因為我是一個特別糾結(jié)概念的人。
回來一搜,不得了,原來,搞不清楚這些術(shù)語邊界的人可真不少,很多本身就是這個領(lǐng)域的學(xué)者和研究者,就是說,連專業(yè)的人士都眾說紛紜,互不能信服,真是太逗了,甚至有篇文章,叫《Battle of the Data Science Venn Diagrams》 [1] 這篇文章里,搜集了很多的維恩圖,不打算一一轉(zhuǎn)載,各位可以自行觀看。
挑一些我個人比較感興趣的圖說說吧。
這張圖也就是題圖,據(jù)說,來自 SAS 公司在 KDD1998* 提供的數(shù)據(jù)挖掘基礎(chǔ)課程中的一副圖[2]。很多辨析這幾個領(lǐng)域的Slides,還有一些技術(shù)人士做的 PPT 里,會引用這張圖,因為 SAS 是全球***的軟件公司之一,是商業(yè)智能和數(shù)據(jù)分析軟件的***,所以,他們的觀點不能說是不權(quán)威。
這幅圖里,以數(shù)據(jù)挖掘(Data Mining)為核心,當(dāng)然因為這是 KDD 會議的講稿,所以圖里還有 KDD 的一個圈圈,哈。模式識別(Pattern Recognition)和神經(jīng)計算(Neurocomputing)這倆,我基本完全沒概念,就不討論了。這圖里有意思的是統(tǒng)計學(xué)(Statistics)、機器學(xué)習(xí)(Machine Learning)和人工智能(AI)的關(guān)系。以 SAS 的觀點來看,人工智能是完全包含了機器學(xué)習(xí)的內(nèi)容的,機器學(xué)習(xí)根本就是人工智能的子學(xué)科。而統(tǒng)計學(xué)跟這倆基本沒有交集,但是仔細點看看,不是完全無關(guān),完全無關(guān)是像數(shù)據(jù)庫(Databases)的表達方式,離得遠遠的,也即,機器學(xué)習(xí)和人工智能,跟統(tǒng)計有關(guān)系,也僅僅一丁點而已,哈!
另有一幅圖,派生自這幅圖。
這幅圖的作者 Brendan Tierney,查了一下也是一個行業(yè)資深人士,曾在 Oracle 工作過,現(xiàn)在是咨詢師,很多 Quroa 答案啊,行業(yè)文章啊,引用這張圖也比較多,這圖本質(zhì)上不是說領(lǐng)幾個屬于的邊界問題的,標題也可以看出來,不過也引發(fā)了不少人討論(呵呵)。Brendan 2012年發(fā)表了博客[3],2016年回來更新說,中間的維恩圖呢,是數(shù)據(jù)挖掘領(lǐng)域很常見的圖啦(然而我沒找到原圖),他隨便引用的,并且他認為派生自上面 KDD1998 那圖(可我覺得不是),他自己加了外面一圈東西才是他想表達的。
這圖里,取消了數(shù)據(jù)挖掘和模式識別的交集,正中間換成了數(shù)據(jù)可惜,新增了可視化,還真是…… 2010年有一篇博客[4],引用這幅圖,辨析了數(shù)據(jù)科學(xué),數(shù)據(jù)挖掘和機器學(xué)習(xí)三者,也挺值得一看的。
下面這幅維恩圖,定義了什么是數(shù)據(jù)科學(xué)。
繪制這幅圖的,是一個叫 Drew Conway 的伙計,他是紐約技術(shù)社群里的一位類似意見***的人物。維基百科對他的介紹[5],他竟然因為繪制了上面的圖而成名,被記入維基百科,另一個因素是把大數(shù)據(jù)應(yīng)用于恐怖主義研究,當(dāng)然,畫出這幅圖還排在研究恐怖主義前面,大家能領(lǐng)會吧?
據(jù) Battle 文說,這圖繪制于2010年,但是2013年才在博客發(fā)表[6],博客的歸檔時間和聲稱發(fā)表時間,確實能看到這兩個時間點。據(jù)說就是這個圖,點燃了 Battle,也是 Battle 文中的***幅圖。
這幅圖,讓人注意的兩個點,***個是 Substantive Expertise,第二個是危險區(qū)域(Danger Zone!),哈哈,前者看到感受是“草,什么鬼,這英語我不認識啊”,后者感受是“神秘啊!”。大可不必為英語看不懂而臉紅,Battle 文作者,也覺得這倆詞選得不好,很操蛋啊(……all I can say, is if Conway meant something other than what I would call domain knowledge (e.g. physics), he chose the name Substantive Expertise very poorly.)當(dāng)然還有一重很重要的可能性,就是咱們都沒有 Conway 老哥有文化,人家另一重身份是紐約大學(xué)的 Political Science 的博士啊!
于是沒文化的技術(shù)民工,將 Conway 老哥的圖改得可愛了一點[7]。
這幅圖我倒是覺得更呵呵一點了。當(dāng)然,值得肯定的是三個圈在我四級的英語能力下,確實更容易看懂一些了。但是,數(shù)據(jù)科學(xué)從中央被移走了什么鬼?而且中央?yún)^(qū)域放入了一個什么鬼?好吧。“數(shù)學(xué)和統(tǒng)計知識”被換成了“量化方法”?“駭客能力”被換成了“計算機科學(xué)”?這倆的替換方法看,基本上也可以判斷,第三個被換的,也高明不到哪里去,所以這個老哥可沒有因為這幅圖被收錄維基百科。那個問號,據(jù)說是對危險區(qū)域不太能接受,所以替換成問號了。
看一個集大成者的圖[8]。
干脆加了一個圈圈叫 Evil(魔鬼?),當(dāng)然了,多了很多什么鬼的英語,我能看懂的就不多了,難道邦德大哥也來客串了?
還是沉溺到了數(shù)據(jù)科學(xué)領(lǐng)域的 Battle,無奈。這幅圖也是來自那篇文章。
這幅圖,是最為切題的一副圖了吧,大數(shù)據(jù),數(shù)據(jù)挖掘,機器學(xué)習(xí),人工智能全都提到了,應(yīng)該做題圖才對啊!(我也是無奈)[9]。感覺這幅圖,提供了一種全新的視角來看待問題,把 Conway 老哥著名的圖里,那些更主觀,更模糊的東西砍掉了,留下了客觀的,跟數(shù)據(jù)有關(guān)的,跟技術(shù)有關(guān)的東西,幾個術(shù)語,確實可以在一個層次上去比較了。文章自稱解決了大 Puzzle 的一部分。
文章辨析了幾個術(shù)語的一些意思和簡史,也提供了另一幅我很喜歡的圖。
說實在,這才是到目前為止我最喜歡的圖,不但提供了作者對于概念內(nèi)涵外延的闡釋,還把不同概念之間的作用關(guān)系給解釋了。真是太棒了!
還有一篇文章我也比較喜歡,比如這篇[10]辨析了機器學(xué)習(xí)和統(tǒng)計學(xué)的異同點。文章認為,統(tǒng)計學(xué)和機器學(xué)習(xí)兩者,有著相同的目標(在咱們討論的這個方面),就是“我們能從數(shù)據(jù)中學(xué)到什么”,而不同的是兩者的方法。這篇文章里也引用了題圖。文章中引述的一種觀點認為,機器學(xué)習(xí)方法,不需要任何前置假設(shè),不關(guān)心各種變量內(nèi)在的聯(lián)系,只要一股腦丟到算法里面就可以了,算法更像一個黑盒子。你的數(shù)據(jù)越多,預(yù)測越準。機器學(xué)習(xí)方法,通常應(yīng)用在一些高維的數(shù)據(jù)集上。
而統(tǒng)計學(xué),特別注重數(shù)據(jù)的采集方式,樣本的各種屬性的分布,你必須精確地知道你到底在干什么以及到底有什么變量來提供預(yù)測能力。統(tǒng)計學(xué)方法,通常應(yīng)用于低維的數(shù)據(jù)集上。
當(dāng)然,結(jié)合目前的工作,很容易就發(fā)現(xiàn),雖然我們使用的是機器學(xué)習(xí)方法,我們卻十分關(guān)心統(tǒng)計學(xué)要求的那些領(lǐng)域,我們也關(guān)注數(shù)據(jù)取得的方式,屬性的分布特征等等問題。所以,也正如文中的結(jié)論,兩者的區(qū)別在日益變小,而且在未來可能越來越難以區(qū)分。(而這半句,是我加的,我覺得在工業(yè)界會是這樣)
還有一幅圖,我也挺喜歡。
這幅圖,介紹了機器學(xué)習(xí)的整個過程[11]。我覺得也是很重要的。
總結(jié)
基本上,數(shù)據(jù)科學(xué)這門學(xué)科到底涵蓋些什么內(nèi)容,其邊界是模糊的。對于一個新興的學(xué)科來說,這一點都不奇怪。我們有一點是確認的,這是一個綜合性很強的交叉學(xué)科。大數(shù)據(jù)也是一個寬泛的概念。機器學(xué)習(xí)和深度學(xué)習(xí)則是內(nèi)涵外延比較明確的概念,公認有包含關(guān)系。人工智能則是更大的范疇,但是人工智能和大數(shù)據(jù)、數(shù)據(jù)科學(xué)都不是一回事情。
- [1]Battle of the Data Science Venn Diagrams,http://www.prooffreader.com/2016/09/battle-of-data-science-venn-diagrams.html
- [2]Looking backwards, looking forwards: SAS, data mining, and machine learning,https://blogs.sas.com/content/subconsciousmusings/2014/08/22/looking-backwards-looking-forwards-sas-data-mining-and-machine-learning/
- [3]Data Science Is Multidisciplinary, http://www.oralytics.com/2012/06/data-science-is-multidisciplinary.html
- [4]Difference of Data Science, Machine Learning and Data Mining, https://www.datasciencecentral.com/profiles/blogs/difference-of-data-science-machine-learning-and-data-mining
- [5]https://en.wikipedia.org/wiki/Drew_Conway
- [6]THE DATA SCIENCE VENN DIAGRAM, http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
- [7]Data Science in Business/Computational Social Science in Academia? http://giventhedata.blogspot.ca/2013/03/data-science-in-businesscomputational.html
- [8]http://joelgrus.com/2013/06/09/post-prism-data-science-venn-diagram/
- [9]The Data Science Puzzle, Explained, https://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html
- [10]http://www.edvancer.in/machine-learning-vs-statistics/
- [11]https://imarticus.org/what-is-machine-learning-and-does-it-matter/
- [*]KDD 是 SIGKDD 簡寫,Special Interest Group(SIG) on Knowledge Discovery and Data Mining