新的深度學(xué)習(xí)模型如何將圖像分割引入邊緣設(shè)備?
譯文【51CTO.com快譯】圖像分割是確定圖像中對(duì)象的邊界和區(qū)域的過程。雖然人類對(duì)圖像不需要有意識(shí)地進(jìn)行分割,但這對(duì)于機(jī)器學(xué)習(xí)系統(tǒng)來(lái)說仍然一個(gè)關(guān)鍵挑戰(zhàn)。這一技術(shù)對(duì)加強(qiáng)自動(dòng)化機(jī)器人、自動(dòng)駕駛汽車以及其他人工智能系統(tǒng)的功能至關(guān)重要,這些人工智能系統(tǒng)必須在現(xiàn)實(shí)世界中進(jìn)行交互和導(dǎo)航。
直到現(xiàn)在,圖像分割還需要大型計(jì)算密集型神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。這使得很多設(shè)備在沒有連接到云計(jì)算服務(wù)器的情況下很難運(yùn)行這些深度學(xué)習(xí)模型。
DarwinAI公司和滑鐵盧大學(xué)公司的研究人員成功地創(chuàng)建了一個(gè)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)提供了近乎最佳的分割功能,并且其足夠小可以適用于資源受限的設(shè)備。研究人員在今年舉辦的一個(gè)計(jì)算機(jī)視覺和模式識(shí)別(CVPR)會(huì)議上在演講報(bào)告中詳細(xì)介紹了這種名為“AttendSeg”的神經(jīng)網(wǎng)絡(luò)。
對(duì)象的分類、檢測(cè)和分割
人們對(duì)機(jī)器學(xué)習(xí)系統(tǒng)越來(lái)越感興趣的一個(gè)主要原因是可以解決計(jì)算機(jī)視覺中的一些問題。機(jī)器學(xué)習(xí)在計(jì)算機(jī)視覺中最常見的應(yīng)用包括圖像分類、對(duì)象檢測(cè)和圖像分割。
圖像分類以確定圖像中是否存在某種類型的對(duì)象。對(duì)象檢測(cè)使圖像分類更進(jìn)一步,并提供了檢測(cè)到的對(duì)象所在的邊界。
而分割有兩種形式:語(yǔ)義分割和實(shí)例分割。語(yǔ)義分割可以指定輸入圖像中每個(gè)像素的對(duì)象類別。實(shí)例分割可將每種類型的對(duì)象的各個(gè)實(shí)例進(jìn)行區(qū)分。在實(shí)際應(yīng)用中,分割網(wǎng)絡(luò)的輸出通常通過對(duì)像素著色來(lái)表示。而分割則是迄今為止最復(fù)雜的分類任務(wù)。
圖像分類vs對(duì)象檢測(cè)vs語(yǔ)義分割
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是計(jì)算機(jī)視覺任務(wù)中常用的一種深度學(xué)習(xí)架構(gòu),其復(fù)雜度通常以其參數(shù)的數(shù)量來(lái)衡量。神經(jīng)網(wǎng)絡(luò)的參數(shù)越多,它需要的內(nèi)存量和計(jì)算能力就越高。
RefineNet是一種流行的語(yǔ)義分割神經(jīng)網(wǎng)絡(luò),其中包含8500多萬(wàn)個(gè)參數(shù),而每個(gè)參數(shù)為4字節(jié),這意味著使用RefineNet的應(yīng)用程序至少需要具體340M的內(nèi)存才能運(yùn)行神經(jīng)網(wǎng)絡(luò)??紤]到神經(jīng)網(wǎng)絡(luò)的性能在很大程度上取決于能夠執(zhí)行快速矩陣乘法的硬件,這意味著模型必須加載到圖形卡或其他一些并行計(jì)算單元上,在這些單元中,其內(nèi)存比計(jì)算中的內(nèi)存少得多。
邊緣設(shè)備的機(jī)器學(xué)習(xí)
由于其硬件要求,大多數(shù)圖像分割應(yīng)用程序都需要連接互聯(lián)網(wǎng)才能將圖像發(fā)送到可以運(yùn)行大型深度學(xué)習(xí)模型的云計(jì)算服務(wù)器。連接云平臺(tái)可能會(huì)限制使用圖像分割的位置。例如,如果無(wú)人機(jī)或機(jī)器人將在沒有互聯(lián)網(wǎng)連接的環(huán)境中運(yùn)行,那么執(zhí)行圖像分割將成為一項(xiàng)艱巨的任務(wù)。在其他領(lǐng)域,人工智能代理將在敏感環(huán)境中工作,并且將圖像發(fā)送到云平臺(tái)將受到隱私和安全性約束。在需要來(lái)自機(jī)器學(xué)習(xí)模型的實(shí)時(shí)響應(yīng)的應(yīng)用程序中,由往返于云平臺(tái)造成的網(wǎng)絡(luò)延遲可能會(huì)令人望而卻步。值得注意的是,網(wǎng)絡(luò)硬件本身會(huì)消耗大量電能,而向云平臺(tái)發(fā)送恒定的圖像可能會(huì)增加電池供電的設(shè)備的負(fù)擔(dān)。
由于這些原因,邊緣人工智能和微型機(jī)器學(xué)習(xí)(TinyML)成為學(xué)術(shù)界和應(yīng)用人工智能領(lǐng)域的關(guān)注和研究的熱點(diǎn)。TinyML的目標(biāo)是創(chuàng)建可以在內(nèi)存和功耗受限的設(shè)備上運(yùn)行而無(wú)需連接到云平臺(tái)的機(jī)器學(xué)習(xí)模型。
AttendSeg設(shè)備上語(yǔ)義分割神經(jīng)網(wǎng)絡(luò)的架構(gòu)
借助AttendSeg,DarwinAI公司和滑鐵盧大學(xué)的研究人員試圖解決邊緣計(jì)算設(shè)備上語(yǔ)義分割的挑戰(zhàn)。
DarwinAI公司聯(lián)合創(chuàng)始人兼滑鐵盧大學(xué)副教授Alexander Wong說,“AttendSeg的想法是由我們對(duì)推進(jìn)微型機(jī)器學(xué)習(xí)(TinyML)領(lǐng)域發(fā)展的渴望。以及我們將其視為滿足DarwinAI公司的市場(chǎng)需求所驅(qū)動(dòng)的。高效的邊緣分割方法在工業(yè)上有很多應(yīng)用,我認(rèn)為正是這種反饋和市場(chǎng)需求推動(dòng)了我們的研究。”
Wong表示,AttendSeg是為微型機(jī)器學(xué)習(xí)(TinyML)應(yīng)用量身定制的低精度、高度緊湊的深度語(yǔ)義分割神經(jīng)網(wǎng)絡(luò)。
AttendSeg深度學(xué)習(xí)模型以幾乎與RefineNet相當(dāng)?shù)木葓?zhí)行語(yǔ)義分割,同時(shí)將參數(shù)數(shù)量減少到119萬(wàn)個(gè)。有趣的是,研究人員還發(fā)現(xiàn),將參數(shù)的精度從32位(4字節(jié))降低到8位(1字節(jié))并不會(huì)導(dǎo)致顯著的性能損失,同時(shí)使AttendSeg的內(nèi)存占用減少了四倍。該型號(hào)需要略高于1M字節(jié)的內(nèi)存,這足夠小,適用于大多數(shù)邊緣設(shè)備。
Alexander Wong說,“根據(jù)我們的實(shí)驗(yàn),8位的參數(shù)對(duì)網(wǎng)絡(luò)的可推廣性沒有限制,這表明低精度的表示在這種情況下是非常有益的。”
實(shí)驗(yàn)表明,AttendSeg深度學(xué)習(xí)模型提供了最佳的語(yǔ)義分割,同時(shí)減少了參數(shù)數(shù)量和內(nèi)存占用量。
用于計(jì)算機(jī)視覺的自我關(guān)注機(jī)制
AttendSeg利用自我關(guān)注機(jī)制來(lái)減小模型尺寸,而不會(huì)影響運(yùn)行性能。自我關(guān)注機(jī)制是通過關(guān)注重要信息來(lái)提高神經(jīng)網(wǎng)絡(luò)效率的機(jī)制。自我關(guān)注機(jī)制已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的福音。它們一直是諸如Transformers之類的深度學(xué)習(xí)架構(gòu)成功的決定性因素。雖然以前的架構(gòu)(例如遞歸神經(jīng)網(wǎng)絡(luò))在較長(zhǎng)的數(shù)據(jù)序列上具有有限的容量,但是Transformers使用自我關(guān)注機(jī)制來(lái)擴(kuò)大其范圍。諸如GPT-3之類的深度學(xué)習(xí)模型利用“Transformers”和自我關(guān)注機(jī)制來(lái)產(chǎn)生長(zhǎng)字符串,這些字符串(至少在表面上)在長(zhǎng)跨度上保持連貫性。
人工智能研究人員還利用自我關(guān)注機(jī)制來(lái)提高卷積神經(jīng)網(wǎng)絡(luò)的性能。去年,Wong和他的同事引入了一種非常節(jié)省資源的自我關(guān)注機(jī)制,并將其應(yīng)用于圖像分類器機(jī)器學(xué)習(xí)模型中。
Wong說:“這種機(jī)制允許采用非常緊湊的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)仍然可以實(shí)現(xiàn)高性能,使其非常適合邊緣計(jì)算和微型機(jī)器學(xué)習(xí)(TinyML)應(yīng)用。”
自我關(guān)注機(jī)制以一種記憶有效的方式提高了卷積神經(jīng)網(wǎng)絡(luò)的性能
機(jī)器驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)
設(shè)計(jì)TinyML神經(jīng)網(wǎng)絡(luò)的關(guān)鍵挑戰(zhàn)之一是找到性能最佳的架構(gòu),同時(shí)還要注意不能超出目標(biāo)設(shè)備的資源。
為了應(yīng)對(duì)這一挑戰(zhàn),研究人員使用了“生成合成”(Generative Synthesis)技術(shù),這是一種可以根據(jù)特定的目標(biāo)和約束創(chuàng)建神經(jīng)網(wǎng)絡(luò)架構(gòu)的機(jī)器學(xué)習(xí)技術(shù)。研究人員無(wú)需人工設(shè)置各種配置和架構(gòu),而是為機(jī)器學(xué)習(xí)模型提供一個(gè)問題空間,可讓它發(fā)現(xiàn)最佳組合。
Wong說,“這里使用的機(jī)器驅(qū)動(dòng)設(shè)計(jì)過程(生成合成)要求人工提供初始設(shè)計(jì)原型和其指定的預(yù)期操作要求(例如尺寸、精度等),機(jī)器驅(qū)動(dòng)設(shè)計(jì)過程將從中學(xué)習(xí),并圍繞操作需求、任務(wù)和數(shù)據(jù)量身定制最佳架構(gòu)設(shè)計(jì)。”
在他們的實(shí)驗(yàn)中,研究人員使用機(jī)器驅(qū)動(dòng)的設(shè)計(jì)來(lái)調(diào)整Nvidia Jetson的AttendSeg、機(jī)器人和邊緣人工智能應(yīng)用的硬件包。但AttendSeg并不局限于應(yīng)用在Jetson。
Wong說:“從本質(zhì)上來(lái)說,與先前的文獻(xiàn)中提出的神經(jīng)網(wǎng)絡(luò)相比,AttendSeg神經(jīng)網(wǎng)絡(luò)將在大多數(shù)邊緣計(jì)算硬件上快速運(yùn)行。但是,如果要生成針對(duì)特定硬件量身定制的AttendSeg,則可以使用機(jī)器驅(qū)動(dòng)的設(shè)計(jì)方法,可以創(chuàng)建一個(gè)新的高度定制化的網(wǎng)絡(luò)。”
AttendSeg更適合在無(wú)人機(jī)、機(jī)器人和自動(dòng)駕駛車輛中的應(yīng)用,其中語(yǔ)義分割是實(shí)現(xiàn)導(dǎo)航的關(guān)鍵要求,但是設(shè)備上的分割可以有更多的應(yīng)用程序。
Wong說,“這種高度緊湊、更加高效的分割神經(jīng)網(wǎng)絡(luò)可以用于各行業(yè)領(lǐng)域的應(yīng)用,其中包括制造應(yīng)用(如零件檢查/質(zhì)量評(píng)估、機(jī)器人控制)、醫(yī)療應(yīng)用(如細(xì)胞分析、腫瘤分割)、衛(wèi)星遙感應(yīng)用(例如如土地覆蓋物的分割)和移動(dòng)設(shè)備應(yīng)用程序(例如增強(qiáng)現(xiàn)實(shí)中的人體分割)等。”
原文標(biāo)題:New deep learning model brings image segmentation to edge devices,作者:Ben Dickson
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】