人工智能產(chǎn)品化的關鍵是基礎架構和數(shù)據(jù),而非算法
目前,人工智能經(jīng)歷著魔幻般的炒作。數(shù)據(jù)輸入作為亂七八糟的數(shù)字流的神經(jīng)網(wǎng)絡——或者黑箱,并且輸出的數(shù)據(jù)得到徹底轉化,就像魔術師從一個空帽子中變出一只兔子。
這在實驗室是可能的,甚至是通過干凈、調(diào)試的數(shù)據(jù),在一臺個人開發(fā)機器上也是可能的。然而,已經(jīng)付出了很多很多努力,為了把機器學習算法擴展到類似于多用戶服務的東西上——換句話說,有用的東西上。
人工智能的關注度正在直線飛升,其中不乏大量炒作,而實際情況是人工智能技術依然處于起步階段,并且難以實現(xiàn)產(chǎn)品化。從原型到產(chǎn)品,需要克服很多新挑戰(zhàn):比如訓練數(shù)據(jù)從何而來?訓練系統(tǒng)時人們?nèi)绾未鎯?、組織、精煉并準備數(shù)據(jù)?誰可以檢測系統(tǒng)?安全性怎么樣:如何管理和保護敏感信息?我的硬件需要多快才能傳遞結果?性能瓶頸和并發(fā)障礙在哪里?
魔術耍個不停。突然你發(fā)現(xiàn),人工智能代碼,你所謂的王冠,只是巨大復雜車機(buggy machine)上一個無足輕重的小齒輪。
Skymind 是一家為企業(yè)提供人工智能解決方案的初創(chuàng)公司,其聯(lián)合創(chuàng)始人和首席技術官 Adam Gibson 說:把人工智能產(chǎn)品化是一個不小的挑戰(zhàn),基礎架構是最難以解決的問題之一。
Skymind CEO 和聯(lián)合創(chuàng)始人 Chris Nicholson 解釋說:部署人工智能是一個復雜過程,并且要分幾步走,這和水流進一個個管道有些像。
原始數(shù)據(jù)就像液體,在流入產(chǎn)品的管道之前,需要數(shù)字化和聚集原始數(shù)據(jù)。接著,在使用 Hadoop 等被存儲之前,數(shù)據(jù)流需要通過工具 Apache Kafka 或者 Apache Storm 進行處理。包括圖像、文本、聲音在內(nèi)的數(shù)據(jù)需要被提取、轉化繼而格式化以用于向量計算,并加載到用于訓練的神經(jīng)網(wǎng)絡。
訓練結束之后,將使用更多的數(shù)據(jù)檢測模型的推斷代碼以查看其性能和精確度。換句話說,對于一個新近訓練的人工智能,你通過問題來查看其輸出是否和你的預期相一致。
在這一點上,少許的調(diào)整、篡改和額外訓練可在正確的方向上推進軟件。當系統(tǒng)達到標準時——精確度足夠高,運行快到可以滿足不耐煩之人的需求——它被插入到一個更大的框架之中,用戶從而可以直接或者通過 API 安全訪問系統(tǒng)。一個典型的例子是 Netflix 或 Amazon 基于用戶信息通過機器學習生成最佳推薦。
它并不止于此,而最后一步是擴展。目前為止我們描述的系統(tǒng)被打包進微服務(microservice)從而人工智能可以在多臺服務器上數(shù)千次地——如果不是數(shù)十萬次——被調(diào)試以解決需求問題。想象一個用于信用卡查腐的系統(tǒng),它要應對數(shù)百個都姓 Purchas 的人。
Gibson 說:研究者并不知道或者關心這個,他們只對更好的算法感興趣,而不是服務消費者。
Nicholson 同意 Gibson 的觀點,他說:研究人員對基礎架構和擴展并不感興趣。這里有一個很好的類比:想象一下數(shù)以千計的消費者向同一個客服人員打電話——這就是研究人員的工作方式。他們就只有一個客服人員。但是想象一下如果通用電氣收到了數(shù)以千計的電話,其就不可能只安排一個客服人員。你需要無限次復制客服人員以盡可能地滿足服務需求。
呃,我只用云
類似創(chuàng)業(yè)公司這樣的小型公司可能會在他們的人工智能系統(tǒng)推斷階段大做文章,并且虛晃(「hand-wave」)其他階段。Gibson 告訴 The Register,「他們不會解決涉及所有基礎架構和擴展的數(shù)據(jù)量問題,因此,理想的做法是訴諸云端」,「但是,隨著公司變大,他們也需要擔心這些問題?!?/p>
Skymind 成立于 2014 年,研發(fā)了一種用 Java 編寫的深度學習框架 Deeplearning4j,能與 Hadoop 和 Spark 融合。
諸如谷歌云、微軟 Azure 以及亞馬遜云這樣的云平臺正競相將人工智能作為一種服務提供給大眾。他們?yōu)橛脩籼峁╊A訓練模型,通過將不同工具(比如圖像識別或自然語言處理)弄在一塊,也為用戶提供一種生成更加定制化模型的辦法。
借助云使用人工智能模型既受約束也很昂貴。神經(jīng)網(wǎng)絡迭代學習,也要求在多個 GPU 上進行密集訓練。借助云來實現(xiàn)這些,花費在 1 萬 5 千美元到 3 萬美元之間不等,Nicholson 介紹說。
「付不起錢的創(chuàng)業(yè)公司會使用從網(wǎng)上下載的預訓練模型,進行定制化——這是典型的做法——并把模型上傳到云?!?/p>
這么做的好處就是小型團隊不用到處找懂機器學習的計算機科學家來將想法付諸現(xiàn)實。但是,也有不利的地方:受限于預先被打包的模型。事實上,這也是證明一家公司是否對人工智能持嚴肅態(tài)度的辦法。人工智能的炒作似乎不會減緩,吹噓這些方面也增加了上頭條或博得更多投資的機會。
「一家公司如果打造人工智能,要解決四個問題:人才、工具、數(shù)據(jù)和基礎架構。」Nicholson 說,「需要有機器學習背景的人,計算機科學家以及黑客。要能解釋他們用的哪類算法,如果使用云,那么,他們可能沒有同樣多的數(shù)據(jù),也不需要考慮基礎架構問題?!?/p>
「如果他們不談論算法和技術堆棧,那么,這就是個警示。你很難認真對待這些人,因為他們啥都干得出來。他們在 logistic 回歸中使用 if-then 卻稱其為人工智能?!?/p>
人工智能不走大眾路線
從制藥貿(mào)易到政府部門,從不缺乏將人工智能應用到數(shù)據(jù)中的商業(yè)興趣。不過,這并適合所有人,Nicholson 和 Gibson 說。深度學習需要將訓練數(shù)據(jù)大量綁定以研發(fā)具有高性能的模型。
「事實是,幾乎所有創(chuàng)業(yè)公司并不掌握足夠數(shù)據(jù)。公司也必須現(xiàn)實點。人們不得不跨過幻想階段,尋找一個可以解決的真正問題?!?/p>
原文:https://www.theregister.co.uk/2017/03/31/ai_infrastructure/
【本文是51CTO專欄機構機器之心的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】