深度學(xué)習(xí)也能不玩大數(shù)據(jù)?小企業(yè)訓(xùn)練大模型有新解
據(jù)外媒報(bào)道,AI領(lǐng)域?qū)<覅嵌鬟_(dá)向IEEE表示深度學(xué)習(xí)未來的發(fā)展路徑應(yīng)當(dāng)從用大數(shù)據(jù)訓(xùn)練模型向用優(yōu)質(zhì)數(shù)據(jù)轉(zhuǎn)變,為無法獲得大數(shù)據(jù)集的產(chǎn)業(yè)提供應(yīng)用深度學(xué)習(xí)模型的機(jī)會。吳恩達(dá)曾任斯坦福人工智能實(shí)驗(yàn)室主任,此前主導(dǎo)谷歌的Google Brain項(xiàng)目。
吳恩達(dá)認(rèn)為,對深度模型的訓(xùn)練應(yīng)當(dāng)從調(diào)整代碼轉(zhuǎn)向調(diào)整數(shù)據(jù),通過調(diào)整影響訓(xùn)練結(jié)果的噪聲數(shù)據(jù)(無意義數(shù)據(jù)),僅用少量優(yōu)質(zhì)的數(shù)據(jù)集即可完成模型更新,相較調(diào)整代碼或直接提供海量數(shù)據(jù)的方式,這種方法更具針對性。
吳恩達(dá)2017年成立的Landing AI公司目前在為制造業(yè)產(chǎn)品檢測方面提供計(jì)算機(jī)視覺工具,該工具能夠?qū)υ肼晹?shù)據(jù)進(jìn)行快速標(biāo)記,使客戶通過更改數(shù)據(jù)標(biāo)簽自主完成模型的更新,不需要再對模型本身進(jìn)行調(diào)整。
一、深度學(xué)習(xí)潛力強(qiáng)大,大數(shù)據(jù)訓(xùn)練集成主流
人工智能的目標(biāo)是讓機(jī)器像人類一樣“思考”和“行動(dòng)”,機(jī)器學(xué)習(xí)是是實(shí)現(xiàn)這一愿景的重要方法,深度學(xué)習(xí)則是機(jī)器學(xué)習(xí)的重要分支,隨著2012年Hinton教授用機(jī)器學(xué)習(xí)方法在ImageNet圖像識別比賽中一舉奪魁,深度學(xué)習(xí)逐漸受到廣泛關(guān)注,在許多領(lǐng)域替代了傳統(tǒng)的機(jī)器學(xué)習(xí)方法,成為人工智能中的熱門研究領(lǐng)域。
過去十年里,深度學(xué)習(xí)實(shí)現(xiàn)了飛速發(fā)展,深度學(xué)習(xí)模型向著越來越大的方向發(fā)展,以O(shè)penAI的自然語言處理模型GPT系列模型為例,2018年,GPT-1的參數(shù)規(guī)模突破1億,到2020年GPT-3問世時(shí)時(shí),參數(shù)規(guī)模已經(jīng)突破百億,超大模型的不斷涌現(xiàn),顯示了深度學(xué)習(xí)的發(fā)展?jié)摿Α?/p>
但是,吳恩達(dá)認(rèn)為,雖然目前深度學(xué)習(xí)方法在許多面向消費(fèi)者的公司里實(shí)現(xiàn)了廣泛應(yīng)用,但是這些公司往往擁有龐大的用戶基礎(chǔ),能獲得大型數(shù)據(jù)集進(jìn)行模型訓(xùn)練,但對于許多不能獲得大型數(shù)據(jù)集的行業(yè),則需要將重點(diǎn)從提供大量數(shù)據(jù)轉(zhuǎn)向提供優(yōu)質(zhì)數(shù)據(jù)。
二、從代碼轉(zhuǎn)向數(shù)據(jù),用少量數(shù)據(jù)訓(xùn)練優(yōu)質(zhì)模型
過去十年中,訓(xùn)練深度學(xué)習(xí)模型的主流方法是下載數(shù)據(jù)集,然后專注于改進(jìn)代碼,但如果一個(gè)機(jī)器學(xué)習(xí)模型對于大多數(shù)數(shù)據(jù)集來說是正常的,僅在其中一個(gè)數(shù)據(jù)集中出現(xiàn)偏差,為了適應(yīng)這個(gè)數(shù)據(jù)集改變整個(gè)模型架構(gòu)的方法是低效的。
還有一種方法是從數(shù)據(jù)下手,這類方法被稱為“Data-centric AI”(以數(shù)據(jù)為中心的人工智能),一般的方法是通過補(bǔ)充更多數(shù)據(jù)提升模型的準(zhǔn)確性。對此,吳恩達(dá)表示,如果試圖為所有情況收集更多數(shù)據(jù),這個(gè)工作量將會很大,因此他致力開發(fā)出標(biāo)記噪聲數(shù)據(jù)(無意義數(shù)據(jù))的工具,提供一種針對性的方法,為模型訓(xùn)練提供少量但優(yōu)質(zhì)的數(shù)據(jù)。
吳恩達(dá)說他一般采用的方法是數(shù)據(jù)增強(qiáng)或提高數(shù)據(jù)標(biāo)簽的一致性等,比如對一個(gè)存有一萬張圖片的數(shù)據(jù)集,其中30張同類圖片有不同的數(shù)據(jù)標(biāo)記時(shí),他希望能夠構(gòu)建識別標(biāo)記不一致的圖片的工具,使研究人員能快速對其重新標(biāo)記,而不是再搜集海量數(shù)據(jù)進(jìn)行模型訓(xùn)練。
三、Landing AI提供數(shù)據(jù)標(biāo)記工具,用戶自主實(shí)現(xiàn)模型更新
2017年,吳恩達(dá)成立了Landing AI公司,為制造業(yè)公司提供產(chǎn)品檢測的計(jì)算機(jī)視覺工具,為生產(chǎn)商的產(chǎn)品進(jìn)行視覺檢測。吳恩達(dá)在該公司的首頁介紹道,用人眼發(fā)現(xiàn)電路板劃痕超出了人眼觀測能力的極限,但用AI進(jìn)行識別的準(zhǔn)確率就高得多。
Landing AI重點(diǎn)在于讓客戶能夠自己訓(xùn)練機(jī)器學(xué)習(xí)模型,該公司主要為其提供相關(guān)工具,能在數(shù)據(jù)出現(xiàn)異常時(shí)進(jìn)行數(shù)據(jù)標(biāo)記,讓公司自己就能實(shí)現(xiàn)模型的快速更新。
? ?
吳恩達(dá)表示,這不僅僅是制造業(yè)的問題,以醫(yī)療健康領(lǐng)域?yàn)槔考裔t(yī)院的電子版健康記錄都有自己的格式,期望每家醫(yī)院的程序員開發(fā)不同的模型是不現(xiàn)實(shí)的,唯一的方法就是為客戶提供工具,讓他們能夠構(gòu)建適配的模型,Landing AI目前在計(jì)算機(jī)視覺領(lǐng)域推廣這樣的工具,其他AI領(lǐng)域業(yè)需要做這樣的工作。
結(jié)語:深度學(xué)習(xí)方法或轉(zhuǎn)向,數(shù)據(jù)求精不求多
長期以來,深度學(xué)習(xí)模型的更新與優(yōu)化主要依賴對模型的調(diào)整,或直接補(bǔ)充更多數(shù)據(jù),反復(fù)訓(xùn)練模型,提升模型的準(zhǔn)確度。吳恩達(dá)則更推薦對少量噪聲數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)記和更新,實(shí)現(xiàn)更有針對性的模型優(yōu)化。
此前,吳恩達(dá)在推特上發(fā)起了“Data-centric AI”競賽,使更多從業(yè)人員注意到通過數(shù)據(jù)進(jìn)行模型優(yōu)化的方法,越來越多的研究人員使用數(shù)據(jù)增強(qiáng)(data augmentation)、合成數(shù)據(jù)(synthetic data)等方法,實(shí)現(xiàn)更高效的模型訓(xùn)練。未來,數(shù)據(jù)優(yōu)化是否會成為實(shí)現(xiàn)模型迭代的主流方法,值得期待。