了解機(jī)器學(xué)習(xí) 只需了解“三大法寶”
從綜藝節(jié)目《危險(xiǎn)邊緣》(Jeopardy)的贏家和圍棋大師,再到不光彩的、與廣告有關(guān)的種族定性,我們似乎進(jìn)入了一個(gè)人工智能發(fā)展飛速加快的時(shí)代。但是,要?jiǎng)?chuàng)造出這樣一個(gè)完全有感知能力的人——他的電子“大腦”能夠利用公平的道德判斷來(lái)完全參與復(fù)雜的認(rèn)知任務(wù),目前我們的能力還不能做到。
不幸的是,目前的事態(tài)發(fā)展讓人們普遍擔(dān)心人工智能未來(lái)可能會(huì)變成什么。它在最近流行文化中的表現(xiàn)表明,我們對(duì)這項(xiàng)技術(shù)的態(tài)度是多么謹(jǐn)慎和悲觀??謶值膯?wèn)題在于,它可能會(huì)造成嚴(yán)重的后果,有時(shí)還會(huì)助長(zhǎng)無(wú)知。
了解人工智能的內(nèi)部運(yùn)作是解決這些憂慮的一劑良藥。而且,這種認(rèn)真可以促成負(fù)責(zé)任的和令人放心的參與。
人工智能的核心基礎(chǔ)是機(jī)器學(xué)習(xí),這是一種優(yōu)雅而又廣泛使用的工具。但要理解機(jī)器學(xué)習(xí)的意義,我們首先需要研究它的潛力是如何絕對(duì)超過(guò)它的壞處的。
數(shù)據(jù)是關(guān)鍵
簡(jiǎn)單地說(shuō),機(jī)器學(xué)習(xí)指的是教計(jì)算機(jī)如何通過(guò)算法來(lái)分析數(shù)據(jù)從而解決特定任務(wù)。例如,對(duì)于手寫(xiě)識(shí)別,可以通過(guò)分類算法,從而分辨出不同人所寫(xiě)的字母。另一方面,住房數(shù)據(jù)集利用回歸算法,以可量化的方式來(lái)評(píng)估某一財(cái)產(chǎn)的售價(jià)。
那么,機(jī)器學(xué)習(xí)最終歸結(jié)為數(shù)據(jù)。幾乎每一個(gè)企業(yè)都會(huì)以這樣或那樣的方式產(chǎn)生數(shù)據(jù): 請(qǐng)想想市場(chǎng)研究、社交媒體、學(xué)校調(diào)查和自動(dòng)化系統(tǒng)。機(jī)器學(xué)習(xí)應(yīng)用程序試圖在大數(shù)據(jù)集的混亂中找出隱藏的模式和相關(guān)性,從而開(kāi)發(fā)能夠預(yù)測(cè)行為的模型。
數(shù)據(jù)有兩個(gè)關(guān)鍵要素——樣本和特征。前者表示組中的單個(gè)元素;后者則表示它們所共有的特征。
以社交媒體為例:用戶是樣本,他們的使用可以被翻譯為特征。例如,facebook將“贊”活動(dòng)的不同方面(用戶之間不盡相同)作為用于定向投放廣告的一個(gè)重要特征。
Facebook好友也可以作為樣本使用,而他們與他人的聯(lián)系也可以作為特征,建立一個(gè)可以研究信息傳播的網(wǎng)絡(luò)。
我的Facebook好友網(wǎng)絡(luò):每個(gè)節(jié)點(diǎn)都是一個(gè)可能會(huì)或可能不會(huì)與其他朋友連接的朋友。節(jié)點(diǎn)越大,連接就越多。相似的顏色也代表著相似的社會(huì)圈子。
除了社交媒體之外,在工業(yè)過(guò)程中作為監(jiān)控工具使用的自動(dòng)化系統(tǒng),將整個(gè)過(guò)程的時(shí)間快照作為樣本,以特定時(shí)間作的傳感器測(cè)量為特征。這使得系統(tǒng)能夠?qū)崟r(shí)檢測(cè)出該過(guò)程中的異?,F(xiàn)象。
所有這些不同的解決方案都依賴于向機(jī)器提供數(shù)據(jù),并教它們?cè)谟胁呗缘卦u(píng)估給定信息的情況下,實(shí)現(xiàn)自己的預(yù)測(cè)。這就是機(jī)器學(xué)習(xí)。
以人類智力作為一個(gè)起點(diǎn)
任何數(shù)據(jù)都可以被翻譯成這些簡(jiǎn)單的概念,任何機(jī)器學(xué)習(xí)應(yīng)用,包括人工智能,都將這些概念作為其構(gòu)建基礎(chǔ)。
一旦數(shù)據(jù)被理解,就該決定如何處理這些信息了。機(jī)器學(xué)習(xí)最普遍、最直觀的應(yīng)用之一就是分類。系統(tǒng)學(xué)習(xí)了如何根據(jù)參考數(shù)據(jù)集將數(shù)據(jù)放入不同的組中。
這與我們每天做的各種決定有直接關(guān)系,無(wú)論是對(duì)類似產(chǎn)品進(jìn)行分組(例如針對(duì)美容產(chǎn)品的廚房用品),還是根據(jù)以往的經(jīng)驗(yàn)選擇好的電影。雖然這兩個(gè)例子可能看起來(lái)完全脫節(jié),但它們依賴于一個(gè)基本的分類假設(shè):被定義為已確定類別的預(yù)測(cè)。
舉個(gè)例子,當(dāng)我們拿起一瓶潤(rùn)膚乳時(shí),我們會(huì)使用特定的特征列表(比如容器的形狀,或者產(chǎn)品的氣味)來(lái)準(zhǔn)確地預(yù)測(cè)它是一種美容產(chǎn)品。一個(gè)類似的策略是通過(guò)評(píng)估一組特征(比如導(dǎo)演,或者是演員)來(lái)預(yù)測(cè)電影是否屬于兩類其中之一:好還是壞。
通過(guò)掌握與一組樣本相關(guān)的各種特征之間的不同關(guān)系,我們可以預(yù)測(cè)一部電影是否值得觀看,或者,更好的情況是,我們可以創(chuàng)建一個(gè)程序來(lái)為我們做這件事。
但要想掌握這些信息,我們需要成為一名數(shù)據(jù)科學(xué)專家,精通數(shù)學(xué)和統(tǒng)計(jì)學(xué),有足夠的編程技能讓艾倫·圖靈(Alan Turing )和瑪格麗特·漢密爾頓(Margaret Hamilton)感到驕傲,對(duì)嗎?不完全是。
在日常生活中,我們都掌握了足夠多的母語(yǔ),即使我們中只有少數(shù)人能涉足語(yǔ)言學(xué)和文學(xué)。數(shù)學(xué)也一樣,它一直都在我們身邊,所以從買(mǎi)東西或測(cè)量原料到遵循菜譜的變化并非一種負(fù)擔(dān)。同樣地,掌握機(jī)器學(xué)習(xí)并不是有意識(shí)和有效地對(duì)其進(jìn)行利用的必要條件。
是的,世界上的確有非常優(yōu)秀和專業(yè)的數(shù)據(jù)科學(xué)家,但是,任何人幾乎不花費(fèi)任何努力都可以學(xué)習(xí)數(shù)據(jù)的基本知識(shí),并改進(jìn)他們觀察和利用信息的方式。
通過(guò)算法來(lái)解決問(wèn)題
回到分類算法上,讓我們考慮一個(gè)模仿我們做決定的方式的算法。我們是社會(huì)的人,那么社會(huì)交往呢?***印象很重要,我們都有一種內(nèi)部模式,在和別人見(jiàn)面的最初幾分鐘里,評(píng)估自己是否喜歡對(duì)方。
有兩種可能的結(jié)果:好的或壞的印象。對(duì)每個(gè)人來(lái)說(shuō),不同的特性(特征)都被考慮在內(nèi)(即使是無(wú)意識(shí)的),基于過(guò)去的幾次相遇(樣本)??赡苁钦Z(yǔ)氣或外表,或者禮貌程度等。
對(duì)于我們遇到的每一個(gè)新面孔,我們頭腦中的一個(gè)模型都會(huì)記錄這些輸入,并建立一個(gè)預(yù)測(cè)。我們可以把這個(gè)模型分解成一組輸入,根據(jù)它們對(duì)最終結(jié)果的相關(guān)性進(jìn)行加權(quán)。
對(duì)一些人來(lái)說(shuō),吸引力可能是非常重要的,而對(duì)于另一些人來(lái)說(shuō),幽默感或愛(ài)狗則更能說(shuō)明問(wèn)題。每個(gè)人都將開(kāi)發(fā)自己的模型,這完全取決于她的經(jīng)驗(yàn)或數(shù)據(jù)。
不同的數(shù)據(jù)導(dǎo)致不同的模型被訓(xùn)練,結(jié)果不同。我們的大腦會(huì)發(fā)展出一些機(jī)制(雖然我們對(duì)此并不完全清楚),但這些機(jī)制會(huì)確定這些因素將如何影響我們對(duì)因素的權(quán)重。
機(jī)器學(xué)習(xí)所做的是為機(jī)器開(kāi)發(fā)出精確和數(shù)學(xué)的方法,從而計(jì)算結(jié)果,特別是在我們無(wú)法輕易處理數(shù)據(jù)量的情況下?,F(xiàn)在超過(guò)了以往任何時(shí)候,數(shù)據(jù)是巨大、永恒的。有了一個(gè)可以積極使用這些數(shù)據(jù)來(lái)解決實(shí)際問(wèn)題的工具,比如人工智能,這意味著每個(gè)人都應(yīng)該并且能夠探索和利用這一點(diǎn)。我們應(yīng)該這樣做,這樣不僅可以創(chuàng)造出有用的應(yīng)用,還可以把機(jī)器學(xué)習(xí)和人工智能放在一個(gè)更光明、更不令人擔(dān)憂的角度。
現(xiàn)在有很多資源供機(jī)器學(xué)習(xí)使用,但這些資源確實(shí)需要一些編程能力。許多適合機(jī)器學(xué)習(xí)的流行語(yǔ)言都提供從基礎(chǔ)教程到完整的課程。只需一個(gè)下午的時(shí)間,就可以開(kāi)始冒險(xiǎn),獲得明顯的結(jié)果。
所有這一切并不是說(shuō),具有人類思維的機(jī)器的概念不應(yīng)該讓我們感到擔(dān)憂。但是,更多地了解這些想法將如何發(fā)揮作用,將使我們有能力成為積極變革的推動(dòng)者,從而使我們能夠保持對(duì)人工智能的控制,而不是反過(guò)來(lái)。
?。▉?lái)源/Dataconomy 翻譯/機(jī)器小易 校對(duì)/文偉)