圖像識別哪家公司最強?微軟、亞馬遜、谷歌還是IBM?
譯文【51CTO.com快譯】有時識別軟件很擅長正確地分類某些類型的圖像,但無法正確地分類其他類型的圖像。一些圖像識別引擎偏愛貓而不是狗,一些圖像識別引擎擁有顏色方面的專長,因而描述性強。但總體上哪家最好?
Perficient Digital的圖像識別準(zhǔn)確度研究分析了機器學(xué)習(xí)熱門的領(lǐng)域之一:圖像識別。它研究了亞馬遜AWS Rekognition、谷歌Vision、IBM Watson和微軟Azure Computer Vision來比較圖像。
三個用戶針對四個類別:圖表、風(fēng)景、人物和產(chǎn)品,手工標(biāo)記了2000個圖像以進行比較。
研究團隊使用兩個不同的指標(biāo)來評估每個引擎:準(zhǔn)確度評估(500個圖像),這個指標(biāo)衡量圖像識別引擎提供的每個標(biāo)簽的準(zhǔn)確度;以及匹配人類描述(2000個圖像),以確定圖像識別引擎提供的標(biāo)簽與人類描述每個圖像的方法相比如何。
在準(zhǔn)確度評估這個部分的500個圖像中,來自圖像識別引擎的每個標(biāo)簽基于它是否準(zhǔn)確加以評估:“是”、“不”或“我不確定”。只有1.2%的標(biāo)簽被標(biāo)記為“不確定”。
即使含有人類不太可能用于描述圖像的標(biāo)簽,標(biāo)簽也會被標(biāo)記為準(zhǔn)確。
就純粹的準(zhǔn)確度而言,四個引擎中的三個:亞馬遜、谷歌Vision和微軟Azure Computer Vision的得分高于人類標(biāo)記,標(biāo)簽置信度超過90%。
在這次分析中,谷歌在所有類別中明顯更勝一籌,亞馬遜AWS Rekogniton位居第二。至于準(zhǔn)確度,引擎標(biāo)簽的置信度為90%或更高時,四個引擎中的三個得分高于人類標(biāo)簽。
圖1
該研究還分析了引擎生成的描述與用戶描述圖像的方式的匹配程度。遺憾的是,這方面的表現(xiàn)不是很好。
對每個引擎進行語言分析,看看有沒有哪個識別引擎存在偏向性。亞馬遜對產(chǎn)品有明顯的偏向,這不足為奇。
人工手動標(biāo)記的圖像得分遠高于任何引擎。準(zhǔn)確的標(biāo)簽與人類用來描述圖像的標(biāo)簽之間存在明顯的差異。
圖2
值得關(guān)注的是,IBM Watson偏愛顏色,與其他引擎相比,它給出的顏色描述最多,使用鋼青色、藍色、鐵青色和紫藍色等詞語。微軟Azure Computer Vision可以描述圖像質(zhì)量,比如模糊和模糊的。
IBM Watson喜歡高度描述性的單詞,比如U形(河流)、阿拉伯式花飾(裝飾)和鐵頭登山杖(登山裝備)。亞馬遜AWS Rekognition偏愛服裝,比其他API更能識別短褲、褲子和襯衫。
谷歌Vision偏愛貓品種,IBM Watson比其他引擎識別更多的狗品種。
試一試Smart Images AI Evaluator(https://smartimages.perficientdigital.com/index.html),并上傳你的一些圖像,看看你的情況怎樣。該工具由Perficient Digital開發(fā),用于比較Adobe、谷歌、IBM和微軟的圖像識別引擎如何標(biāo)記該圖像。你可能會驚訝于結(jié)果有多好。
原文標(biāo)題:Which company does the best job at image recognition? Microsoft, Amazon, Google, or IBM?,作者:Eileen Brown
【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】