吳恩達(dá):AI是時候從大數(shù)據(jù)轉(zhuǎn)向「小數(shù)據(jù)」了
AI大牛吳恩達(dá)不久前剛被檢測出新冠陽性,許多網(wǎng)友都向他表達(dá)了早日康復(fù)的祝愿。
如今,他的工作重心放在了他的Landing AI公司上。
這是一家專門面向制造業(yè)廠商數(shù)字化轉(zhuǎn)型的初創(chuàng)公司,創(chuàng)立目標(biāo)就是幫助制造業(yè)公司更快速、輕松地構(gòu)建和部署人工智能系統(tǒng)。
對于傳統(tǒng)企業(yè)來說,預(yù)訓(xùn)練好的模型都是基于公開數(shù)據(jù),實(shí)際上派不上用場。
但畢竟是傳統(tǒng)企業(yè),上哪兒收集海量的特定數(shù)據(jù)來支撐訓(xùn)練?
那Landing AI是如何克服的這個困難?
最近,吳恩達(dá)在接受IEEE Spectrum的一段專訪中,討論了人工智能領(lǐng)域下一個十年的風(fēng)向,表達(dá)了“是時候從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)”的觀點(diǎn)。
或許我們能從中找到這個問題的答案。
以下整理自采訪原文,略有刪減。
IEEE Spectrum:得益于越來越大的模型和數(shù)據(jù)集,深度學(xué)習(xí)在過去十年間取得了巨大的進(jìn)步。一些人認(rèn)為這是一個不可持續(xù)發(fā)展的軌跡。你同意嗎?
吳:這確實(shí)是一個值得思考的問題。NLP領(lǐng)域已經(jīng)有了基礎(chǔ)模型(foundation model),并正在繼續(xù)擴(kuò)大規(guī)模。計(jì)算機(jī)視覺領(lǐng)域也有構(gòu)建基礎(chǔ)模型的潛力,就是在視頻領(lǐng)域由于計(jì)算帶寬(算力)和處理成本的限制還有待開發(fā)。雖然擴(kuò)展深度學(xué)習(xí)算法的引擎已經(jīng)運(yùn)行了大約15年,但它還有足夠的動力。不過,它只適用于某些問題,還有一系列場景需要小數(shù)據(jù)解決方案。
注:基礎(chǔ)模型是Percy Liang和吳在斯坦福大學(xué)的一些朋友創(chuàng)造的一個術(shù)語,指的是在非常大的數(shù)據(jù)集上訓(xùn)練的巨大模型,這種模型可以針對特定的應(yīng)用進(jìn)行調(diào)整,例如GPT-3。
過去十年里,面向消費(fèi)者的企業(yè)由于擁有大量用戶群(有時甚至高達(dá)數(shù)十億),因此獲得了非常大的數(shù)據(jù)集得以開展深度學(xué)習(xí)。這給它們帶來了不少經(jīng)濟(jì)價值,但我發(fā)現(xiàn)這種法則不適用于其他行業(yè)。
IEEE Spectrum:有意思,你以前就是在這種公司工作。
吳:確實(shí),不過十多年前,當(dāng)我提議啟動谷歌大腦項(xiàng)目、利用谷歌的計(jì)算基礎(chǔ)設(shè)施建設(shè)大規(guī)模網(wǎng)絡(luò)時就引起了爭議。一位非常資深的人把我拉到一邊,警告我說,這會對我的職業(yè)生涯不利。我想他的意思是這個項(xiàng)目不能只注重?cái)U(kuò)大規(guī)模,應(yīng)該把重點(diǎn)放在架構(gòu)創(chuàng)新上。
我還記得當(dāng)我和我的學(xué)生,發(fā)表第一篇倡導(dǎo)使用CUDA進(jìn)行深度學(xué)習(xí)的論文時,另一位AI資深人士坐下來對我說:“CUDA編程非常復(fù)雜。作為一種編程范例,如果這么做的話工作量太大了。”
IEEE Spectrum:我想他們后來肯定都被說服了。
吳:是的。
現(xiàn)在當(dāng)我與大家討論以數(shù)據(jù)為中心的人工智能(Data-centric AI)運(yùn)動時,也會想到15年前與大家討論深度學(xué)習(xí)時的場景。這一年,許多人和我說“方向錯了”、“兩者之間似乎沒有什么新東西”。
IEEE Spectrum:你是如何定義以數(shù)據(jù)為中心的人工智能,為什么你認(rèn)為它是一種運(yùn)動(movement)?
吳:以數(shù)據(jù)為中心的AI是為構(gòu)建成功AI系統(tǒng)所需數(shù)據(jù)的系統(tǒng)準(zhǔn)則。對于AI系統(tǒng)來說,你必須用代碼實(shí)現(xiàn)一些算法,然后在你的數(shù)據(jù)集上進(jìn)行訓(xùn)練。過去十年里,主要的應(yīng)用范例就是我們下載數(shù)據(jù)集,同時專注于改進(jìn)代碼。這種模式給深度學(xué)習(xí)網(wǎng)絡(luò)帶來了顯著的改進(jìn),但其架構(gòu)基本上表達(dá)的就是一個已解決的問題。因此,對于許多實(shí)際應(yīng)用來說,現(xiàn)在更有效的方法是固定神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),找到改進(jìn)數(shù)據(jù)的方法。
而當(dāng)我提出這個觀點(diǎn)時,有從業(yè)者說:“這事兒我們已經(jīng)做了20年了。” 我想說的是,現(xiàn)在是時候把這件少數(shù)人憑直覺做的事情變成一門系統(tǒng)的事。
IEEE Spectrum:你前面提到,一些公司或機(jī)構(gòu)只有少量數(shù)據(jù)可供使用。以數(shù)據(jù)為中心的人工智能如何幫助他們?
吳:像很多視覺模型都是用數(shù)百萬張圖像構(gòu)建的,我也曾經(jīng)花3.5億張圖像搭建了一個人臉識別系統(tǒng)。但這種模型在只有50張圖像的數(shù)據(jù)集上卻沒法運(yùn)行。不過事實(shí)證明,如果你有50個非常好的數(shù)據(jù),你也可以做出有價值的東西,比如缺陷檢查系統(tǒng)。在許多根本不存在巨型數(shù)據(jù)集的行業(yè),我認(rèn)為重點(diǎn)必須從大數(shù)據(jù)轉(zhuǎn)向優(yōu)質(zhì)數(shù)據(jù)。有50個經(jīng)過深思熟慮的實(shí)例就足以向神經(jīng)網(wǎng)絡(luò)解釋你想要它學(xué)會什么。
IEEE Spectrum:用50張圖像訓(xùn)練一個模型的意思是在一個用大數(shù)據(jù)集訓(xùn)練好的現(xiàn)有模型上對其進(jìn)行微調(diào)嗎?還是說這是一個全新的模式,就從這個小數(shù)據(jù)集上學(xué)習(xí)?
吳:我來講一下Landing AI是做什么的吧。在給制造商提供瑕疵檢查服務(wù)時,我們一般就用帶有我們自己風(fēng)格的RetinaNet。它是一個預(yù)訓(xùn)練模型。話說過來,預(yù)訓(xùn)練只是難題的一小部分,更大的難題是提供一個工具讓制造商能夠選擇正確的圖像集(用于微調(diào)),并用一致的方式對圖集進(jìn)行標(biāo)記。面對大數(shù)據(jù)集的應(yīng)用時,我們的通常反應(yīng)都是如果數(shù)據(jù)有噪音也沒關(guān)系,所有數(shù)據(jù)照單全收,算法會對其進(jìn)行平均(average over)。但是,如果我們能夠開發(fā)出用來標(biāo)記出數(shù)據(jù)不一致的地方的工具,為制造商提供一種非常有針對性的方法來提高數(shù)據(jù)質(zhì)量,那這將是獲得高性能系統(tǒng)的更有效方法。
就比如你現(xiàn)在你有10000張圖像,其中30張屬于一個類別,但這30張的標(biāo)簽不一致。我們要做的一件事就是構(gòu)建工具來吸引你注意到這個特殊的數(shù)據(jù)子集,使你能夠快速重新對它們進(jìn)行標(biāo)記,從而提高模型性能。
IEEE Spectrum:像這樣生成高質(zhì)量的數(shù)據(jù)集是否有助于消除數(shù)據(jù)偏見?
吳:非常有幫助。有偏見的數(shù)據(jù)是導(dǎo)致最終模型產(chǎn)生偏見的眾多因素之一。在NeurIPS會議上,Mary Gray的演講談到了以數(shù)據(jù)為中心的AI是這個問題的解決方案之一(并非全部)。
以數(shù)據(jù)為中心的AI給我們帶來的強(qiáng)大能力之一是構(gòu)建(engineer)數(shù)據(jù)子集。想象一下,你訓(xùn)練了一個機(jī)器學(xué)習(xí)模型,它的性能對于大多數(shù)數(shù)據(jù)集都還可以,但只有一個子集有偏差。要是僅僅為了提高該子集的性能就更改整個神經(jīng)網(wǎng)絡(luò)架構(gòu),那是相當(dāng)困難的。
但如果你能針對這個子集構(gòu)建(engineer)出合適的數(shù)據(jù),解決方式也就更有針對性。
IEEE Spectrum:構(gòu)建(engineer)數(shù)據(jù)的確切意思是?
吳:在AI領(lǐng)域,數(shù)據(jù)清洗很重要,但目前都是靠很機(jī)械的方式。面對一個非常大的數(shù)據(jù)集時,這個工具可以快速地將你的注意力吸引到有噪音的數(shù)據(jù)子集上,針對該子集進(jìn)行集中收集。
就像我曾經(jīng)發(fā)現(xiàn)語音識別系統(tǒng)的性能很差,主要是背景中有汽車噪音。知道了這一點(diǎn),我就可以再收集更多帶這種噪音背景的數(shù)據(jù),而不是對所有內(nèi)容都采取行動,省錢又省時。
IEEE Spectrum:使用合成數(shù)據(jù)怎么樣?這也是個好的解決方式嗎?
吳:合成數(shù)據(jù)也是Data-centric AI工具集中的一個重要工具。在NeurIPS研討會上,Anima Anandkumar做了一次涉及合成數(shù)據(jù)的精彩演講。我認(rèn)為它僅僅只是一個為模型增加數(shù)據(jù)的預(yù)處理步驟。我希望能看到開發(fā)人員將生成合成數(shù)據(jù)作為迭代機(jī)器學(xué)習(xí)模型閉環(huán)的一部分。
IEEE Spectrum:你的意思是合成數(shù)據(jù)可以讓你在更多不同數(shù)據(jù)集上嘗試模型嗎?
吳:不止如此。假設(shè)你要檢測智能手機(jī)外殼上的瑕疵,包括劃痕、凹痕、材料變色等。如果你的訓(xùn)練模型在這個檢測任務(wù)上總體表現(xiàn)良好,但就是在識別凹痕上表現(xiàn)不佳,那么就可以用合成數(shù)據(jù)生成更有針對性的數(shù)據(jù)來解決問題。
IEEE Spectrum:能和我們詳細(xì)說一下當(dāng)一家公司找到Landing AI,比如要做視覺檢驗(yàn),你們會提供何種幫助?
吳:我們會要求他們將數(shù)據(jù)上傳到我們的平臺,用以數(shù)據(jù)為中心的人工智能方法向他們提供建議,并幫助他們標(biāo)記數(shù)據(jù)。
Landing AI的重點(diǎn)是授權(quán)制造商自己做機(jī)器學(xué)習(xí)工作,我們的很多工作是確保軟件快速且好上手。在機(jī)器學(xué)習(xí)的迭代過程中,我們會為客戶提供建議,比如如何在平臺上訓(xùn)練模型,如何以及何時改進(jìn)數(shù)據(jù)標(biāo)記來提高模型性能。
IEEE Spectrum:如果產(chǎn)品或照明條件什么的發(fā)生變化,這種模型能跟上嗎?
吳:所以說授權(quán)制造業(yè)客戶自己更正數(shù)據(jù)、重新訓(xùn)練和更新模型非常重要。
在消費(fèi)互聯(lián)網(wǎng)中,我們只需訓(xùn)練少數(shù)機(jī)器學(xué)習(xí)模型就能服務(wù)10億用戶。在制造業(yè)中,有10000家制造商就要搭建10000個定制模型。挑戰(zhàn)是,你如何做到這點(diǎn)還不用雇傭10000名機(jī)器學(xué)習(xí)專家?
這個問題在其他行業(yè)比如醫(yī)療健康領(lǐng)域也存在。
擺脫這一困境的唯一辦法是開發(fā)出能夠讓客戶自己設(shè)計(jì)數(shù)據(jù)、表達(dá)專業(yè)領(lǐng)域知識的工具,讓他們自己構(gòu)建模型。這也是Landing AI在計(jì)算機(jī)視覺領(lǐng)域中正在做的事兒。
IEEE Spectrum:最后還有什么想說的?
吳:在過去十年中,人工智能的最大轉(zhuǎn)變是向深度學(xué)習(xí)的轉(zhuǎn)變。我認(rèn)為在這十年中,最大的轉(zhuǎn)變很可能是轉(zhuǎn)向以數(shù)據(jù)為中心的人工智能。隨著當(dāng)今神經(jīng)網(wǎng)絡(luò)架構(gòu)的成熟,我認(rèn)為對于許多實(shí)際應(yīng)用而言,瓶頸將是我們能否有效地獲取讓模型運(yùn)行良好所需的數(shù)據(jù)。
而以數(shù)據(jù)為中心的人工智能運(yùn)動在整個社區(qū)擁有巨大的能量和動力。我希望更多的研究人員和開發(fā)人員能夠加入并致力于它。