人工智能/機器學習知多少?
從在智力競賽節(jié)目和圍棋人機大戰(zhàn)戰(zhàn)勝人類,到推送廣告時表現(xiàn)出種族偏見而備受抨擊,我們似乎已經(jīng)進入了人工智能發(fā)展步伐迅速加快的時代。但就目前而言,我們還無法讓機器具有完整的感知能力,使其電子“大腦”通過合理的道德判斷,完成復雜的認知任務。
當前的發(fā)展走向讓人們對人工智能的未來普遍生出了畏懼之心。這種情緒近來在流行文化中的表達顯示出了我們對這項技術(shù)有多么謹慎和悲觀。問題在于,畏懼可能產(chǎn)生嚴重后果,有時更會成為無知的溫床。了解人工智能的內(nèi)在機制是緩解這些憂慮情緒的良方,有助于人們負責、放心地參與其中。
人工智能的核心基礎是機器學習,一種巧妙且相當普及的工具。但想要了解機器學習,我們需要先弄清楚機器學習為什么利大于弊。
數(shù)據(jù)是關鍵
簡單來說,機器學習是指教電腦如何分析數(shù)據(jù),通過算法來解決特定的任務。例如,就手寫識別而言,分類算法會根據(jù)人的筆跡辨認文字。住房數(shù)據(jù)集則會利用回歸算法,以可量化的方式估算房產(chǎn)的賣價。
于是,機器學習便要歸結(jié)到數(shù)據(jù)上來。幾乎每一家企業(yè)都在以某種方式生成數(shù)據(jù),比如市場調(diào)研、社交媒體、學校調(diào)查和自動化系統(tǒng)。機器學習程序試圖在看似雜亂無章的龐大數(shù)據(jù)集中找到隱藏的模式和關聯(lián),建立可以預測行為的模型。
數(shù)據(jù)有兩個重要因素,即樣本和特性。前者代表了群體中的個體因素;后者則是個體因素共有的特點。
以社交媒體為例。用戶就是樣本,他們的使用習慣則是特性。比如,F(xiàn)acebook就把“點贊”活動的不同方面(不同用戶各有不同)作為投放用戶定向廣告所依據(jù)的重要特性。
Facebook好友也可以作為樣本,他們與其他人的連接則是特性,從而建立起一個人際網(wǎng)絡,可以用來研究信息的傳播。
Facebook好友網(wǎng)絡:每個節(jié)點是一位好友,他與其他好友相連或者不相連。節(jié)點越大,說明連接越多。同樣的顏色表示同樣的社交圈。
除了社交媒體以外,在工業(yè)化作業(yè)中用作為監(jiān)控工具的自動化系統(tǒng),則把整個作業(yè)的時間快照作為樣本,特定時刻的傳感器測量值作為特性。如此,系統(tǒng)便可實時檢測作業(yè)中的異常現(xiàn)象。
所有這些不同的解決方案都要靠向機器輸入數(shù)據(jù)和教它們在策略性地評估過給定信息后自行作出預測來實現(xiàn)。這就是機器學習。
以人類智能作為出發(fā)點
任何數(shù)據(jù)都可以轉(zhuǎn)換成簡單的概念,包括人工智能在內(nèi)的任何機器學習程序則會將這些概念作為自身的基石。
完成對數(shù)據(jù)的解讀后,就要決定如何運用得到的這些信息。分類就是一種最常見、最直觀的機器學習程序。系統(tǒng)會學習如何根據(jù)參照數(shù)據(jù)集把數(shù)據(jù)分成不同的類別。
這種程序能讓人直接聯(lián)想到我們每天所作的各種決策,不管是給產(chǎn)品分類(比如哪些是廚具,哪些是美容產(chǎn)品),還是根據(jù)以往經(jīng)驗選擇觀看哪部影片。這兩個例子或許看似完全無關,但它們都依賴于分類的一個基本假設:被定義為既定類別的預測。
例如,在拿起一瓶保濕霜時,我們會根據(jù)特定的一組特性(比如容器的形狀或者產(chǎn)品的氣味),準確預測它是美容產(chǎn)品。同樣的策略也適用于電影的選擇,通過評估一組特性(比如導演或者演員),預測電影屬于兩個類別中的哪一個:好看或者不好看。
通過了解樣本特性之間的不同關系,我們可以預測電影是不是值得觀看,甚至可以開發(fā)出一款計算機程序,替我們作出預測。
但想要掌握這些信息,我們就需要一位數(shù)據(jù)科學專家,他必須精通數(shù)學和統(tǒng)計學,并且擁有嫻熟的編程技能,對不對?其實未必如此。
我們都對自己的母語非常了解,足以應對日常生活,但其中只有少數(shù)人才學過語言學和文學。數(shù)學也是如此,它始終伴隨我們左右,買東西時計算找零金額或者根據(jù)食譜衡量食材,都不是什么難事。同理,無需精通機器學習技術(shù),也照樣能有效地使用它。
沒錯,世間確實有那種造詣深厚的專家級數(shù)據(jù)科學家,但只要下點功夫,任何人都能掌握這方面的基礎知識,改進自己理解和利用信息的方式。
將所有設計思路轉(zhuǎn)換為算法
再說回分類算法。假設有一種分類算法能模仿我們作決策的方式。我們是社會性動物,不如就以社交來往為例?第一印象很重要,我們心里都有一個模型,在和某人相遇的最初幾分鐘里,用來判斷我們喜不喜歡他。
這可能產(chǎn)生兩個結(jié)果:好印象或者壞印象。對每一個人,我們都會根據(jù)已有的幾次相遇(樣本),考慮(哪怕是潛意識地)不同的特點(特性),無論是聲調(diào)、外向性、整體態(tài)度還是禮節(jié)表現(xiàn)。
對于我們遇到的每一個陌生人,我們心里的那個模型都會把上述特征作為輸入數(shù)據(jù),并據(jù)此作出預測。我們可以把這個建模過程分解成一組輸入數(shù)據(jù),按照它們與最終結(jié)果的相關性確定其權(quán)重。
對有些人來說,吸引力很重要,而對其他人來說,幽默感或者喜歡狗更重要。每個人都有自己的模型,完全取決于自身的經(jīng)歷,或者說數(shù)據(jù)。
不同的數(shù)據(jù)會產(chǎn)生不同的模型,得出不同的結(jié)果。我們的大腦機制會自行確定這些因素的權(quán)重,雖然我們對于這套機制的具體原理還不是完全明了。
機器學習所做的,就是建立嚴格的數(shù)學方法,讓機器可以計算出相應的結(jié)果,尤其是在我們無法輕松處理大量數(shù)據(jù)的情況下。現(xiàn)在,數(shù)據(jù)比以往任何時候都要多,既然擁有主動利用這些數(shù)據(jù)來解決實際問題的工具,比如人工智能,我們所有人就都應該去了解和使用它。這不僅是為了創(chuàng)建有用的應用,也是為了讓機器學習和人工智能不再令人不安。
這并不是說,我們應該對“機器具備類人思維”這樣的概念放任自流。但更多地了解人工智能的內(nèi)在機制,會讓我們能夠掌握實現(xiàn)良性改變的主動權(quán),讓我們可以控制人工智能,而不是反過來被人工智能控制。