從機器學習到學習的機器,數(shù)據(jù)分析算法也需要好管家
圖為IBM大數(shù)據(jù)與分析事業(yè)部全球研發(fā)副總裁Dinesh Nirmal。
今年是莎士比亞逝世四百周年。在莎翁名劇《尤利烏斯·凱撒》中一個占卜師有這樣一句沒有上下文的預言:“請小心‘三月’中”, 凱撒聽后不知道這句話是何意思,于是說讓這個占卜師繼續(xù)做夢吧。結果在三月十五日,凱撒被密謀暗殺。類似的,今天的預測算法可以告訴你一個預言,但卻無法提供合適的上下文,這讓人難以做出進一步行動的決策。
另一個關于預測算法的例子是在最新的《復仇者聯(lián)盟3》中,出現(xiàn)了一個人工智能合成物“奧創(chuàng)”。奧創(chuàng)只能按字面理解任務,于是把“拯救地球”理解成了“殺死所有的人類”。這就像一個典型的預測算法,按字面理解任務而忽略掉了其它的可能性或任務的現(xiàn)實意義。
于是,2016年1月,哈佛商學院教授Michael Luca、經(jīng)濟學教授Sendhil Mullainathan以及康奈爾大學教授Jon Kleinberg聯(lián)合在《哈佛商業(yè)評論》發(fā)表了一篇題為《算法也需要管家》的文章,呼吁全球科技界和商界在機器學習算法和人工智能時代要注意算法的管理問題。因為,如果有一天,算法能夠決定“凱撒”或地球的命運,那么誰來管理算法呢?
IBM大數(shù)據(jù)與分析事業(yè)部全球研發(fā)副總裁Dinesh Nirmal最近現(xiàn)身在北京舉辦的2016機器學習和行業(yè)應用國際峰會,他介紹了IBM作為全球大數(shù)據(jù)分析、機器學習和人工智能的前沿科技企業(yè)將如何面對一個復雜的算法世界,這就為機器學習造一個可以自學習、自調(diào)整、自優(yōu)化的機器管家——基于Spark的機器學習云服務。
Apache Spark是一個分布式計算框架,是專為滿足低延遲任務和內(nèi)存數(shù)據(jù)存儲而優(yōu)化的開源大數(shù)據(jù)系統(tǒng)。由于其并行計算性能以及兼顧速度、可擴展性、內(nèi)存處理以及容錯性等,再加上可大幅簡化編程的豐富API,讓Spark成為了機器學習算法的主流計算平臺。IBM在2015年6月宣布加入Spark開源社區(qū),并承諾將把Spark作為自己的分析與商務平臺核心。
2016年6月開始,IBM花了5個月時間開發(fā)了基于Spark的機器學習云服務,該云服務將提供公有云、本地部署及混合云部署等版本,該云服務還可部署在IBM大型主機z系列上。Dinesh強調(diào),該云服務除了在獲取數(shù)據(jù)、抽取特征、訓練模型、部署模型、做出預測等經(jīng)典機器學習過程中進行優(yōu)化外,還加入了持續(xù)反饋、自動建模、重新訓練模型等自動化管理。
在自動建模中,IBM的機器學習云服務能夠根據(jù)數(shù)據(jù)模型自動推薦最優(yōu)算法,并根據(jù)數(shù)據(jù)特征值來評價模型的性能和表現(xiàn),當模型訓練好后可在實時環(huán)境、生產(chǎn)環(huán)境和離線批量環(huán)境中部署模型。當數(shù)據(jù)變化后,該云服務還能實時監(jiān)控模型的表現(xiàn),然后自動重新訓練模型。整個過程中不需要把模型離線訓練后再重新上線,極大方便了實時生產(chǎn)環(huán)境中的商業(yè)應用。
Dinesh認為,在機器學習的世界里,開源是一個大趨勢。為此,IBM開源了自己的重量級機器學習框架SystemML,并在舊金山設立Spark技術中心,還在全球投入超過3500名IBM研究和開發(fā)人員開展與Spark相關項目。2016年6月,IBM把自己的開源軟件與基于Apache Spark的H2O、RStudio、Jupyter Notebooks等開源科研分析交互環(huán)境相結合推出了Data Science Experience云服務,以提升數(shù)據(jù)科學家的機器學習和數(shù)據(jù)分析速度。
為了進一步加強自己的數(shù)據(jù)分析產(chǎn)品和技術生態(tài)圈,IBM從2015以來為Apache Toree、EclairJS、Apache Quarks、Apache Mesos、Apache Tachyon(現(xiàn)更名為Alluxio)等開源項目做了大量貢獻,也為Apache Spark的子項目如SparkSQL、SparkR、MLLib和PySpark等做了深入貢獻。如今,Spark已經(jīng)與IBM的Watson、商務、分析、系統(tǒng)和云等超過45種核心產(chǎn)品相結合。
IBM對于Spark的投入已經(jīng)超過3億美金,并把Spark視為數(shù)據(jù)分析的操作系統(tǒng)。推出基于Spark的機器學習云服務是IBM的最新進展,是為了給機器學習算法提供一個安全、高可靠的統(tǒng)一管理平臺。在此基礎之上,IBM進一步把Watson用于機器學習,讓人工智能幫助機器學習算法更“聰明”地理解人的意圖,這就是剛推出的Watson數(shù)據(jù)平臺。
Dinesh介紹說IBM正在把所有的機器學習、人工智能、數(shù)據(jù)分析、數(shù)據(jù)管理等整合起來到一個統(tǒng)一的基于Spark的平臺上,這包括開源的算法以及IBM自有的算法等,再經(jīng)過優(yōu)化和配備企業(yè)級解決方案,最終以混合云方式為企業(yè)打造一個可以自由選擇的數(shù)據(jù)與算法管理平臺。
2017年,我們將迎來一個移動互聯(lián)網(wǎng)大發(fā)展的大時代,數(shù)據(jù)與算法將更加容易地“統(tǒng)治”世界。從在線音樂、在線游戲、在線廣告到各類生活服務、社交溝通以及內(nèi)容消費等,機器學習算法在不知不覺中替人們做了很多選擇。因此在歡呼機器解放人類的同時,也要警惕算法帶來的“偏見”,這就需要能夠自學習、自校正的機器。
從機器學習到學習的機器,這是人工智能商業(yè)化道路上的必經(jīng)之路。