人工智能輔助的機(jī)器驅(qū)動(dòng)數(shù)據(jù)自動(dòng)標(biāo)注方法
用于對(duì)象檢測(cè)、對(duì)象識(shí)別和分割任務(wù)的自動(dòng)注釋解決方案。
你好,朋友們。在這篇博客文章中,我想分享我們?cè)谑褂萌斯ぶ悄芗夹g(shù)自主生成數(shù)據(jù)標(biāo)簽方面所做的工作。
我們的全文可在此處獲得-https://lnkd.in/gJDKQCY https://lnkd.in/gJDKQCY
在我們了解我們的方法之前,首先讓我們了解一下外行術(shù)語(yǔ)中的數(shù)據(jù)標(biāo)簽是什么。在機(jī)器學(xué)習(xí)中,數(shù)據(jù)標(biāo)簽只是識(shí)別原始數(shù)據(jù)(圖像、視頻、音頻文件、文本文件等)并添加一個(gè)或多個(gè)有意義的和信息豐富的標(biāo)簽以提供上下文的過(guò)程,以便機(jī)器學(xué)習(xí)模型可以從中學(xué)習(xí)和推斷。大多數(shù)最先進(jìn)的機(jī)器學(xué)習(xí)模型高度依賴于大量標(biāo)記數(shù)據(jù)的可用性,這是監(jiān)督任務(wù)中的一個(gè)重要步驟。各種用例都需要數(shù)據(jù)標(biāo)簽,包括計(jì)算機(jī)視覺、自然語(yǔ)言處理和語(yǔ)音識(shí)別。傳統(tǒng)上,這一乏味而平凡的數(shù)據(jù)標(biāo)注過(guò)程很大程度上是由人類完成的。為了幫助人類最大限度地減少?gòu)念^開始的瘋狂的數(shù)據(jù)標(biāo)記工作和努力,我們建議一種自動(dòng)化的算法解決方案,旨在減少大量的人工工作。讓我們來(lái)看一下這樣的標(biāo)簽數(shù)據(jù)實(shí)際需要的位置的引用。在這里,我將談?wù)動(dòng)?jì)算機(jī)視覺任務(wù)。計(jì)算機(jī)視覺簡(jiǎn)單地說(shuō)就是復(fù)制人類視覺(人眼視覺)的復(fù)雜性,以及對(duì)周圍環(huán)境的理解。計(jì)算機(jī)視覺任務(wù)包括用于獲取、處理、分析和理解數(shù)字圖像的方法,以及從真實(shí)世界提取高維數(shù)據(jù)以便產(chǎn)生例如以決策形式的數(shù)字或符號(hào)信息的方法。在計(jì)算機(jī)視覺領(lǐng)域,有許多不同的任務(wù)。我不會(huì)深入討論它們的細(xì)節(jié),例如分類、檢測(cè)、分割等。但是,下面的圖表提供了這些任務(wù)的簡(jiǎn)明概述和目標(biāo),并提供了一個(gè)上下文中對(duì)象的示例-“香蕉”。
標(biāo)記數(shù)據(jù)的上下文需求示例
為了監(jiān)督模型檢測(cè)對(duì)象–“香蕉”,注釋的標(biāo)簽被饋送給模型,使得它可以學(xué)習(xí)香蕉像素的表示,并且將它們定位在上下文中,然后可以使用該上下文來(lái)推斷未見/新的數(shù)據(jù)。實(shí)例分割任務(wù)的目的是檢測(cè)對(duì)象,定位這些對(duì)象,并提供它們的數(shù)量、大小和形狀信息。我們使用了這樣一種最先進(jìn)的實(shí)例細(xì)分模型-“Mask R-CNN”作為我們框架的核心骨干,但是這里可以根據(jù)他們的需求和目標(biāo)使用任何其他的網(wǎng)絡(luò)體系結(jié)構(gòu)。我們堅(jiān)持使用掩模R-CNN,因?yàn)樗跈z測(cè)圖像中的目標(biāo)的同時(shí)為每個(gè)目標(biāo)生成高質(zhì)量的分割掩模。對(duì)于我們檢測(cè)COVID感染的特定測(cè)試用例來(lái)說(shuō),感染區(qū)域的精確定位是至關(guān)重要的,因此像素級(jí)檢測(cè)在這種情況下更合適。
我們的方法
我們的工具流水線如下所示,主要由探測(cè)器跟蹤器、自動(dòng)標(biāo)簽?zāi)K和將機(jī)器標(biāo)注標(biāo)簽輸出并保存到磁盤的I/O模塊組成。
步驟1:-目標(biāo)檢測(cè)和跟蹤以進(jìn)行像素級(jí)分類
自定義弱訓(xùn)練MASK-RCNN模型用于檢測(cè)COVID感染,標(biāo)記實(shí)例很少(<10個(gè)樣本)。為了標(biāo)記感染區(qū)域,我們使用了VIA(VIA)圖像標(biāo)注工具。它是一款簡(jiǎn)單而獨(dú)立的圖像、音頻和視頻手動(dòng)注釋軟件。VIA在Web瀏覽器中運(yùn)行,不需要任何安裝或設(shè)置。完整的VIA軟件可以安裝在單個(gè)獨(dú)立的HTML頁(yè)面中,該頁(yè)面的大小小于400KB,在大多數(shù)現(xiàn)代Web瀏覽器中作為離線應(yīng)用程序運(yùn)行。VIA是一個(gè)完全基于HTML、Javascript和CSS(不依賴外部庫(kù))的開源項(xiàng)目。VIA是由視覺幾何集團(tuán)(VGG)開發(fā)的,并根據(jù)BSD-2條款許可發(fā)布,這使得它既可用于學(xué)術(shù)項(xiàng)目,也可用于商業(yè)應(yīng)用。檢測(cè)器用于獲取定位的掩碼、邊界框和類。其次,采用中心跟蹤算法對(duì)輸入視頻數(shù)據(jù)流上的多個(gè)感染區(qū)域進(jìn)行統(tǒng)一跟蹤和標(biāo)記。下面給出了我們的MASK-RCNN Covid探測(cè)器的一個(gè)片段。 第2步:-逐幀標(biāo)記數(shù)據(jù) 來(lái)自預(yù)先訓(xùn)練的檢測(cè)器模型的推斷被用來(lái)獲得邊界框的位置,并創(chuàng)建JSON元數(shù)據(jù)。一旦使用Mask-RCNN分割幀,就會(huì)生成相應(yīng)的感興趣區(qū)域(ROI)。此外,生成每個(gè)ROI的掩碼,然后在整個(gè)圖像幀上進(jìn)行輪廓檢測(cè)。然后,從等高線中提取(x,y)坐標(biāo)。最后,這些形狀、區(qū)域和坐標(biāo)屬性逐幀保存到磁盤。下面給出了我們的自動(dòng)標(biāo)記算法的片段。 示例-冠狀病毒感染檢測(cè)和自動(dòng)標(biāo)記 我們測(cè)試了我們的方法,目標(biāo)是為Covid感染區(qū)域生成自動(dòng)計(jì)算機(jī)標(biāo)簽。機(jī)器生成標(biāo)簽和人工注釋標(biāo)簽的結(jié)果如下所示。可以看出,自動(dòng)注釋引擎生成可用于重新訓(xùn)練對(duì)象檢測(cè)模型或生成可用于不同任務(wù)的更多注釋數(shù)據(jù)的合成標(biāo)簽的相當(dāng)好的質(zhì)量。
摘要
數(shù)據(jù)標(biāo)注是一項(xiàng)不平凡的任務(wù),也是有監(jiān)督學(xué)習(xí)管道的關(guān)鍵組成部分之一。這是一項(xiàng)需要大量手工工作的任務(wù)。那么,我們可以讓這些平凡、勞力密集和耗時(shí)的大部分工作由機(jī)器自動(dòng)驅(qū)動(dòng),目的是將大量的人類任務(wù)降到最低。我們用直觀的方法關(guān)注這一普遍存在的問(wèn)題,以在很大程度上緩解標(biāo)簽有限或需要自己從頭開始標(biāo)記大量實(shí)例的瓶頸。
注意:-我們的工具目前處于阿爾法測(cè)試階段。目前,我們?cè)O(shè)計(jì)的框架是基于MASK R-CNN和VIA注釋格式的。我們還打算推廣我們的原型,使其包含不同的最新檢測(cè)器,例如YOLO和相應(yīng)的YOLO兼容注釋格式。此外,我們還計(jì)劃集成COCO注釋格式。它值得集成所有不同的圖像注釋作為我們框架的一部分,同時(shí)為工具提供不同的庫(kù),即Torch、TensorFlow、Caffe等。