Facebook發(fā)布Faiss開(kāi)源資源庫(kù) 精度換取效率將成機(jī)器學(xué)習(xí)發(fā)展方向 ?
譯文【51CTO.com快譯】在機(jī)器學(xué)習(xí)領(lǐng)域,聚類(lèi)與相似性搜索等用于實(shí)現(xiàn)數(shù)據(jù)集內(nèi)親和性的方法通常較難實(shí)現(xiàn)。如果大家希望對(duì)多達(dá)1億張圖片進(jìn)行內(nèi)容比較并找出其中哪些內(nèi)容相似,這無(wú)疑將成為一項(xiàng)極為復(fù)雜的任務(wù)。事實(shí)上,其中最困難的部分在于如何跨多處理器實(shí)現(xiàn)規(guī)模擴(kuò)展。
Facebook旗下的AI研究事業(yè)部(簡(jiǎn)稱(chēng)FAIR)最近發(fā)布了一套名為Faiss的揭底性解決方案。這是一套開(kāi)源資源庫(kù),通過(guò)C++編寫(xiě)并與Python綁定,可用于對(duì)海量數(shù)據(jù)集——例如靜態(tài)圖像或者視頻——進(jìn)行相似內(nèi)容搜索。
其同時(shí)亦代表著一類(lèi)不斷增長(zhǎng)的機(jī)器學(xué)習(xí)解決方案,即探索利用更好的方法將算法并發(fā)運(yùn)行在大規(guī)模多GPU環(huán)境之下。
用于大海撈針的磁石
在2月底發(fā)布的論文當(dāng)中,F(xiàn)AIR對(duì)這一項(xiàng)目的內(nèi)容與目標(biāo)進(jìn)行了描述。其研發(fā)難題并不僅僅在于如何在GPU之上運(yùn)行相似性搜索或者“k-選定”算法,而是如何在多個(gè)GPU之間高效實(shí)現(xiàn)并發(fā)運(yùn)行,同時(shí)處理體積遠(yuǎn)超內(nèi)存容量的數(shù)據(jù)集(例如TB級(jí)別視頻)。
Faiss的優(yōu)勢(shì)并非搜索數(shù)據(jù)本身,而是采取壓縮性質(zhì)的表達(dá)形式,即通過(guò)犧牲有限的一部分精度水平實(shí)現(xiàn)數(shù)量級(jí)甚至更為可觀的存儲(chǔ)效率提升。大家可以將其與MP3進(jìn)行類(lèi)比:MP3雖然屬于“有損”壓縮格式,但對(duì)于大多數(shù)聽(tīng)眾而言,其效果已經(jīng)完全可以接受。同樣的,F(xiàn)aiss采用所謂PQ(即產(chǎn)物量化)編碼機(jī)制以在多個(gè)GPU之間對(duì)工作負(fù)載進(jìn)行高效拆分。
論文中提到的一項(xiàng)示例涉及對(duì)雅虎Flickr Creative Commons的1億套數(shù)據(jù)集進(jìn)行搜索,其中包含1億張圖片。Faiss提取了兩幅圖像——一朵紅花與一朵黃花——并以此為依據(jù)在其之間找到一系列類(lèi)似的圖像。在一組包含四塊英偉達(dá)Titan X GPU的硬件支持之下,1億張圖片的相似度搜索過(guò)程共耗時(shí)35分鐘。
FAIR宣稱(chēng)Faiss的速度“達(dá)到此前業(yè)界***進(jìn)GPU的8.5倍”,且提供了數(shù)項(xiàng)基準(zhǔn)測(cè)試以支持其結(jié)論。FAIR指出,在與兩塊原有GPU進(jìn)行k-選定算法速度比較時(shí),F(xiàn)aiss算法不僅速度更快而且能夠更充分地發(fā)揮GPU的***可用存儲(chǔ)器帶寬。
FAIR同時(shí)介紹稱(chēng),F(xiàn)aiss的另一大優(yōu)勢(shì)在于搜索的端到端時(shí)間——即構(gòu)建數(shù)據(jù)PQ版本所需要的時(shí)間加上實(shí)際運(yùn)行搜索所需要的時(shí)間。競(jìng)爭(zhēng)性解決方案需要數(shù)天時(shí)間才能構(gòu)建起一套測(cè)試用PQ圖像數(shù)據(jù),而Faiss在“大約半天”時(shí)間內(nèi)即可建立起“高質(zhì)量”圖像。
加快腳步
FAIR所采取的略微犧牲精度以提升效率的策略已經(jīng)為***一代機(jī)器學(xué)習(xí)所廣泛接受。
相當(dāng)一部分此類(lèi)加速方案不僅適用于英偉達(dá)Titan這樣的高端硬件,同時(shí)亦可支持低端硬件——例如智能手機(jī)中的GPU。谷歌的TensorFlow深度學(xué)習(xí)系統(tǒng)最近即經(jīng)過(guò)升級(jí),旨在利用智能手機(jī)級(jí)別的GPU執(zhí)行圖像認(rèn)知處理。
以精度換取效率這一算法實(shí)踐的另一大長(zhǎng)期優(yōu)勢(shì)在于能夠?qū)⒐ぷ髫?fù)載分配給本地設(shè)備(快速但不精確)與遠(yuǎn)程后端(更準(zhǔn)確但對(duì)處理能力要求更高)。如果擁有網(wǎng)絡(luò)連接,則本地設(shè)備負(fù)責(zé)進(jìn)行分類(lèi),而后端則憑借更強(qiáng)大的處理資源進(jìn)行深入識(shí)別。
Faiss項(xiàng)目帶來(lái)的重要啟示在于:在探索如何利用高并發(fā)硬件充分實(shí)現(xiàn)機(jī)器學(xué)習(xí)功能方面,我們?nèi)杂写罅抗ぷ餍枰睾恪?/p>
原文標(biāo)題:Facebook's new machine learning framework emphasizes efficiency over accuracy
原文作者:Serdar Yegulalp
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】
了解更多熱點(diǎn)新聞,請(qǐng)關(guān)注51CTO《科技新聞早報(bào)》欄目!