2020年,AI技術的環(huán)保水平將更上一層樓
人工智能(AI)技術的環(huán)境影響,近期引發(fā)了人們的普遍關注——我堅信,這也將成為AI在未來十年內(nèi)的一大核心難題。這場對話始于艾倫AI研究所的最新研究,他們主張優(yōu)先考慮“綠色AI”的實現(xiàn)通道,即更多關注AI系統(tǒng)的能源效率。
這項研究的動機在于,艾倫研究所發(fā)現(xiàn)目前AI領域的各類重大進步背后,都有驚人的碳排放量作為支撐。OpenAI發(fā)表于2018年的博文指出,自2012年以來,全球超大規(guī)模AI訓練所帶來的計算量增長了30萬倍。盡管該文沒有計算模型訓練帶來的碳排放,但有人敏銳發(fā)現(xiàn)了問題核心并給出答案。根據(jù)Emma Strubel及其同事發(fā)表的論文,美國人平均每年排放二氧化碳約3萬6千噸。與之對應,訓練并開發(fā)一套運用神經(jīng)結構搜索技術的機器翻譯模型,總計將產(chǎn)生62萬6千噸二氧化碳。
遺憾的是,從環(huán)境角度來看,這些所謂“紅色AI”項目造成的實際后果可能比報告上的更加糟糕。實際上,AI項目的時間、能源以及資金總成本通常要比帶來最終成果的階段性成本高出一個數(shù)量級。
現(xiàn)實情況在于,紅色AI項目還存在重要度、大量集中的趨勢(例如開發(fā)新型對象檢測模型以改善復雜環(huán)境中的自主導航能力,或者從大量非結構化Web數(shù)據(jù)中學習富文本表示等),這意味著只有大型科技企業(yè)以及一部分學術機構才有能力掌握如此龐大的計算資源。換言之,超大的數(shù)據(jù)規(guī)模與高昂的計算成本,將導致小體量玩家完全插不上手。
那么,我們該如何推動綠色AI的發(fā)展?或者說,我們應不應該不惜代價優(yōu)先推動綠色AI項目?
紅色AI不一定是壞事
當今,大部分所謂“紅色AI”項目,都將目標定在推動自然語言處理、計算機視覺以及其他重要AI領域的科學發(fā)展層面。雖然這類項目的碳成本確實可觀,但對社會產(chǎn)生的積極影響同樣值得期待。
例如,人類基因組計劃(HGP)花費27億美元,耗時長達13年,繪制出完整的人類基因組圖。業(yè)界曾有觀點,認為人類基因組計劃太過復雜、成本高昂而且缺少短時間內(nèi)帶來科學突破的潛力。但如今,我們完全能夠利用測序技術在數(shù)小時內(nèi)繪制出特定個體的基因組圖,成本約為100美元。而這項技術的存在,正是以人類基因組計劃的主要成果(參考基因組)為前提。盡管當初的計劃效率低下,但仍為未來可能全面實現(xiàn)的個性化醫(yī)療鋪平了道路。
同樣,衡量紅色AI項目的成本與成果也至關重要。紅色AI實驗帶來的大量產(chǎn)出(例如,用于對象識別的圖像表示,以及自然語言處理中的單詞嵌入)也有望在更廣泛的應用中發(fā)揮巨大的推動作用。
通往綠色AI的道路
但無論具有怎樣的潛在科學回報,紅色AI項目都注定存在不可持續(xù)性,由此帶來的環(huán)境問題終將抹殺一切。仍然以之前提到的項目為例,人類基因組計劃雖然成功完成了人類基因測序工作,但只有成本更低的新型DNA預測技術才有可能使其真正得到推廣。換言之,AI社區(qū)必須在構建深度學習模型時,充分考慮到徹底能耗的必要性。
下面我分享一點個人拙見,聊聊推動行業(yè)轉向綠色AI的幾個可行步驟:
強調可重復性:可重復性與中間成果的共享,對于提升AI開發(fā)效率至關重要。AI研究成果通常不會公開代碼,否則其他研究人員會發(fā)現(xiàn)自己即使掌握同樣的代碼也無法完成結果重現(xiàn)。此外,研究人員在開源工作中可能面臨種種內(nèi)部障礙。正是這些因素,導致如今人工智能領域的發(fā)展仍然以紅色AI項目為主導——這類項目能夠用“暴力”解決可重復性問題,同時阻止一切有效共享。但情況正在緩慢變化,NeruIPS等主影響力會議已經(jīng)在要求參會者提交可重復的代碼與研究論文。
提高硬件性能:最近幾年,專用型硬件迎來了一大波迅猛發(fā)展,它們不僅在深度學習任務當中帶來更佳的性能水平,同時也顯著增強了能源效率(即每瓦性能產(chǎn)出)。AI社區(qū)對于GPU的旺盛需求,促使谷歌公司開發(fā)出TPU,并將其推向芯片市場幫助用戶打造屬于自己的專用方案。在接下來的幾年內(nèi),相信英偉達、英特爾、SambaNova、Mythic、Graphcore以及Cerebras等廠商都將把硬件設計目標集中在AI類工作負載層面。
理解深度學習:我們都知道深度學習技術行之有效,但這項已經(jīng)擁有數(shù)十發(fā)展歷史的技術之上,仍然籠罩著層層迷霧。目前的研究團體并不完全理解深度學習為何有效以及如何起效。揭開深度學習背后的基礎科學,并對其優(yōu)勢及局限性做出正確表征,無疑有助于幫助從業(yè)者開發(fā)出更加準確高效的模型方案。
深度學習民主化:將深度學習的準確度極限推向新的高度當然令人興奮,但俗話常說,“完美是優(yōu)秀的天敵。”現(xiàn)有模型在廣泛對接應用場景時已經(jīng)擁有充足的準確度,而且?guī)缀醺鱾€行業(yè)及科學領域都可以從深度學習工具中受益。如果各個領域的人們都能接觸到這項技術,我們絕對能夠在性能與能效等層面迎來無數(shù)令人驚訝的創(chuàng)新。
加強合作:世界上大多數(shù)企業(yè)都沒有構建AI技術體系的能力,但這些企業(yè)的領導者已經(jīng)意識到,他們有必要將AI乃至深度學習技術介入未來的產(chǎn)品與服務當中。企業(yè)應當積極與初創(chuàng)公司、孵化器項目以及高校建立合作伙伴關系,避免單槍匹馬面對AI發(fā)展戰(zhàn)略這一強敵。
雖然今天我們經(jīng)常能在硅谷的大街上看到跑來跑去的無人駕駛汽車,并心生一種技術高峰已然到來的錯覺——但請醒醒,我們的AI探索之旅才剛剛邁出第一步。
在航空領域,二十世紀初的飛行“先鋒時代”表現(xiàn)出重要項目分布于世界各地,但整體進展非常緩慢的特征。而到五十年后的飛行“噴氣時代”,航空業(yè)經(jīng)歷了新的持續(xù)發(fā)展新周期——飛機變得更大、更安全、更快也更省油。為什么?因為工程學(例如渦輪發(fā)動機)與社會結構(例如監(jiān)管機構)的根本性進步,為飛行的民主化進步帶來了必要的實現(xiàn)前提與推廣基礎。
2020年代,AI技術有望取得更令人難以置信的進步。但就基礎設施與能源利用效率來看,我們恐怕仍處于“先鋒時代”。隨著AI研究的發(fā)展,我們必須努力為模型打造出最佳平臺、工具與方法,確保其易于訪問且能夠輕松重現(xiàn)。只有這樣,高能效AI才能獲得不斷前進的動力。