斯坦福教授曼寧:AI巨模型訓(xùn)練成本動(dòng)輒幾十萬(wàn),窮博士和小公司用不起了
Glean 是一家從事搜索業(yè)務(wù)的創(chuàng)業(yè)公司,一直很想使用最新的 AI 算法來(lái)改進(jìn)公司的產(chǎn)品。
Glean 提供 Gmail、Slack 和 Salesforce 等應(yīng)用程序進(jìn)行搜索的工具,用于解析語(yǔ)言的新 AI 技術(shù),可以幫助公司的客戶更快地發(fā)掘正確的文件或?qū)υ挕?/p>
但是訓(xùn)練這樣一個(gè)尖端的人工智能算法需要花費(fèi)數(shù)百萬(wàn)美元。因此 Glean 使用更小、能力更弱的 AI 模型,這些模型無(wú)法從文本中提取出盡可能多的含義。
Glean 對(duì)此也是頗為無(wú)奈。
「對(duì)于預(yù)算較少的小企業(yè)來(lái)說(shuō),很難獲得與谷歌或亞馬遜等公司相同精度的結(jié)果,對(duì)于這些小公司而言,要想搞出最強(qiáng)大的人工智能模型是不可能的?!构颈硎尽?/p>
過(guò)去十年中,AI 產(chǎn)生了一系列令人興奮的突破,目前已經(jīng)可以在復(fù)雜的游戲中擊敗人類(lèi),可以在特定條件下駕駛汽車(chē)穿過(guò)城市街道,響應(yīng)口頭命令,并根據(jù)簡(jiǎn)短的提示編寫(xiě)連貫的文本。
一方面,這些進(jìn)步在很大程度上是因?yàn)樗惴ㄓ辛烁嗟奈谋咀鳛橛?xùn)練數(shù)據(jù)。另一方面,為了消化這些數(shù)據(jù),使用了更多的芯片。
這是要花錢(qián)的。
以 OpenAI 的語(yǔ)言模型 GPT-3 為例,這是一個(gè)大型的、數(shù)學(xué)模擬的神經(jīng)網(wǎng)絡(luò),從網(wǎng)絡(luò)上抓取大量文本進(jìn)行訓(xùn)練后,GPT-3 可以以驚人的連貫性預(yù)測(cè)哪些詞應(yīng)該填在其他詞前后,生成流暢的文本,而且是開(kāi)箱即用的。
GPT-3 在回答問(wèn)題、總結(jié)文本和糾正語(yǔ)法錯(cuò)誤等任務(wù)上明顯優(yōu)于以前的 AI 模型。與上一代的 GPT-2 相比,性能實(shí)現(xiàn)了 1000 倍的增長(zhǎng)。不過(guò),據(jù)估計(jì),訓(xùn)練 GPT-3 的成本接近 500 萬(wàn)美元。
「如果 GPT-3 既方便又便宜,會(huì)大大增強(qiáng)我們的搜索引擎,那會(huì)非常非常強(qiáng)大?!?/p>
對(duì)于希望擁抱 AI 轉(zhuǎn)型傳統(tǒng)企業(yè)來(lái)說(shuō),訓(xùn)練高級(jí) AI 的成本不斷上升也同樣是一個(gè)問(wèn)題。
Dan McCreary 在健康 IT 公司 Optum 領(lǐng)導(dǎo)一個(gè)團(tuán)隊(duì),該團(tuán)隊(duì)使用語(yǔ)言模型來(lái)分析通話記錄,識(shí)別哪些患者風(fēng)險(xiǎn)較高,哪些應(yīng)該及早推薦轉(zhuǎn)診。
他說(shuō),現(xiàn)在即使訓(xùn)練一個(gè) GPT-3 大小千分之一的語(yǔ)言模型,也會(huì)很快耗盡團(tuán)隊(duì)的預(yù)算。他們需要的模型針對(duì)特定任務(wù)進(jìn)行訓(xùn)練,成本可能超過(guò) 50000 美元,這筆錢(qián)要付給云計(jì)算公司,作為租用其計(jì)算機(jī)和程序的租金。
McCreary 表示,云計(jì)算供應(yīng)商沒(méi)有理由降低成本?,F(xiàn)在他正在考慮自己購(gòu)買(mǎi)加速人工智能訓(xùn)練的專用芯片。
現(xiàn)在,許多學(xué)術(shù)實(shí)驗(yàn)室和創(chuàng)業(yè)公司可以直接下載并使用最新的理念和技術(shù)。比如在圖像處理方面取得突破的算法來(lái)自學(xué)術(shù)實(shí)驗(yàn)室,使用現(xiàn)成的硬件和公開(kāi)共享的數(shù)據(jù)集開(kāi)發(fā)。
然而,隨著時(shí)間的推移,越來(lái)越清楚的一點(diǎn)是,AI 的進(jìn)步與底層計(jì)算機(jī)性能的指數(shù)級(jí)增長(zhǎng)息息相關(guān)。
有了算力,才有創(chuàng)新。沒(méi)有錢(qián),就沒(méi)有算力。
現(xiàn)在,一些大企業(yè)進(jìn)一步把這個(gè)趨勢(shì)推得越來(lái)越高。近日,微軟表示,它和英偉達(dá)合作,構(gòu)建了一個(gè)比 GPT-3 大兩倍的語(yǔ)言模型。
MLCommons 是一個(gè)跟蹤 AI 專有芯片性能變化的機(jī)構(gòu)。該機(jī)構(gòu)的執(zhí)行董事大衛(wèi)·坎特 (David Kanter) 表示:「未來(lái)訓(xùn)練 AI 的成本絕對(duì)會(huì)繼續(xù)上升。」
Mosaic ML 的技術(shù)可以幫助大公司將模型提升到一個(gè)新的性能水平,也可以幫助沒(méi)有深厚 AI 專業(yè)知識(shí)、也沒(méi)那么有錢(qián)的小公司利用 AI 技術(shù)。
利用最新技術(shù)的成本不斷上升,可能會(huì)將創(chuàng)新留給最大的公司和租賃工具和算力的公司,從而減緩創(chuàng)新的步伐。
「我認(rèn)為這種情況確實(shí)會(huì)阻礙創(chuàng)新?!箤iT(mén)研究人工智能和語(yǔ)言的斯坦福大學(xué)教授克里斯·曼寧說(shuō)。
「當(dāng)只有少數(shù)幾個(gè)地方才能研究這些大模型的內(nèi)部結(jié)構(gòu)時(shí),出現(xiàn)創(chuàng)造性新成果的幾率一定會(huì)大大降低?!?/p>
曼寧說(shuō),就在十年前,他的實(shí)驗(yàn)室有足夠的計(jì)算資源來(lái)探索任何項(xiàng)目。「一個(gè)努力工作的博士生就可能會(huì)做出最先進(jìn)的工作,而現(xiàn)在,這個(gè)窗口已經(jīng)關(guān)閉了。」
與此同時(shí),不斷上漲的算力成本,促使人們尋找更有效的 AI 算法訓(xùn)練方式。目前已經(jīng)有數(shù)十家公司開(kāi)發(fā)用于訓(xùn)練和運(yùn)行 AI 程序的專用計(jì)算機(jī)芯片。
所以,特斯拉設(shè)計(jì)自己的車(chē)載芯片,也許只是為了訓(xùn)練自動(dòng)駕駛的 AI 模型。
Mosaic ML 是一家源自 MIT 的初創(chuàng)公司,主要開(kāi)發(fā)提高機(jī)器學(xué)習(xí)訓(xùn)練效率的軟件和技術(shù)。
一種技術(shù)是對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行「修剪」,消除網(wǎng)絡(luò)結(jié)構(gòu)中的低效率部分,創(chuàng)建一個(gè)功能類(lèi)似、但規(guī)模小得多的網(wǎng)絡(luò)。
早期的結(jié)果表明,這種方法應(yīng)該可以將訓(xùn)練 GPT-3 之類(lèi)的網(wǎng)絡(luò)所需的計(jì)算機(jī)功率減少一半,從而降低開(kāi)發(fā)成本。
Mosaic ML 計(jì)劃將大部分技術(shù)開(kāi)源,同時(shí)也為降低 AI 技術(shù)成本的公司提供咨詢服務(wù)。Carbin 說(shuō),未來(lái)可能會(huì)有一種這樣的產(chǎn)品,一款能夠在訓(xùn)練模型的準(zhǔn)確性、速度和成本方面實(shí)現(xiàn)權(quán)衡的工具。
「不過(guò)目前,還沒(méi)有人真正知道如何將所有這些方法組合在一起?!顾f(shuō)。