十大針對機器學(xué)習(xí)的文本注釋工具與服務(wù),你會選用哪個?
譯文【51CTO.com快譯】目前,從搜索引擎與情感分析,到虛擬助手與聊天機器人,機器學(xué)習(xí)應(yīng)用場景中的許多研究領(lǐng)域,都需要通過文本注釋工具與服務(wù)來提供準(zhǔn)確性。在AI研究與開發(fā)行業(yè)中,發(fā)現(xiàn)或創(chuàng)建可注釋的數(shù)據(jù)對于項目團(tuán)隊而言,是一項昂貴而艱巨的任務(wù)。因此,人們經(jīng)常把那些持有大量高質(zhì)量已注釋數(shù)據(jù)的團(tuán)隊,戲稱為“家里有礦”。不過幸運的是,業(yè)界有著許多可用于文本注釋的工具和服務(wù),能夠幫助我們獲取所需的數(shù)據(jù),進(jìn)而實現(xiàn)包括實體提取、詞性標(biāo)注、以及情感分析在內(nèi)的各種操作。
下面,我將和您一起探討目前十大針對機器學(xué)習(xí)的文本注釋工具與服務(wù)。您可以根據(jù)自己項目的實際情況,從中做出選擇并試用。
1. Tagtog
Tagtog是一款由波蘭軟件公司開發(fā)的工具,可用于自動化或手動注釋文本。Tagtog既支持原生的PDF注釋,又包含了可用于自動化文本注釋的預(yù)訓(xùn)練NER(Named Entity Recognition,命名實體識別)模型。除了Tagtog工具,該公司還擁有來自各個領(lǐng)域的專家網(wǎng)絡(luò),能夠為文本注釋提供專業(yè)的服務(wù)。
2. LightTag
LightTag工具能夠方便企業(yè)和項目成員在內(nèi)部平臺上,標(biāo)記其文本數(shù)據(jù)。在套餐設(shè)計方面,盡管該工具的入門包是免費的,但是不同級別的工具包,有著不同的售價,以及每個月可提供注釋的數(shù)量限制。其中,免費版的數(shù)量是每月1000個注釋。
專門從事語言學(xué)研究的Lionbridge,不但擁有百萬用戶規(guī)模的社區(qū),而且能夠支持三百多種語言。通常,它能夠提供的文本注釋服務(wù)包括:文本提取、情感分類、實體注釋、命名實體識別、以及語言成分分析等。此外,Lionbridge還提供了一種可以自定義數(shù)據(jù)注釋軟件,以方便用戶團(tuán)隊將其授權(quán)并應(yīng)用到各種文本注釋的項目中。
4.Scale
總部位于舊金山的Scale,是計算機視覺和NLP(Natural Language Processing,自然語言處理)數(shù)據(jù)注釋服務(wù)的提供商。通過將人工干預(yù)與Scale平臺相結(jié)合,該公司提供了諸如OCR轉(zhuǎn)錄、文本分類與比較等文本注釋類型的服務(wù)。
5. KConnect
許多AI研究人員和開發(fā)團(tuán)隊往往會碰到的一個問題是:如何才能訪問到那些隸屬于高度專業(yè)化領(lǐng)域的AI訓(xùn)練數(shù)據(jù)。KConnect團(tuán)隊就致力于幫助注釋者用戶快速、有效地對醫(yī)療領(lǐng)域的數(shù)據(jù)進(jìn)行分類和注釋。具體而言,KConnect為醫(yī)療類信息提供了語義注釋、文本分析、以及語義搜索等服務(wù)。
6. Clickworker
總部位于美國和德國Clickworker,是一家眾包公司。它擁有龐大的從業(yè)團(tuán)隊,能夠執(zhí)行各項任務(wù)。他們在文本注釋領(lǐng)域所提供的服務(wù)包括:情感分析與分類。
7. ParallelDots Text Annotation API
ParallelDots能夠提供文本注釋類工具和多種API。他們的解決方案包括:情感分析、情緒分析、關(guān)鍵字提取器、以及命名實體識別等。
8. Appen
作為一種以眾多形式實現(xiàn)AI訓(xùn)練數(shù)據(jù)的服務(wù),Appen擁有來自各個國家的大量貢獻(xiàn)者。它所提供的文本注釋服務(wù)涵括了:情感注釋、意圖注釋、以及命名實體注釋等方面。
源自意大利的Dandelion API提供了豐富的自動化文本注釋工具。盡管它是該領(lǐng)域相對較新的創(chuàng)業(yè)公司,但是其工具可被用于實體提取、情感分析、以及文本與內(nèi)容分類等不同場景中。
10. Dataturks Text Annotation Tools
借助著數(shù)據(jù)注釋內(nèi)部API、以及上千家合作外包公司,Dataturks能夠提供各種圖像和文本注釋的工具。具體而言,它的文本標(biāo)記功能包括:文本分類、命名實體識別、以及詞性標(biāo)記等。
借助上述各種先進(jìn)的文本注釋工具,相信您的團(tuán)隊能夠構(gòu)建出屬于自己的自定義工作流程和數(shù)據(jù)注釋平臺,并能夠滿足特定應(yīng)用場景的項目需求。
原文標(biāo)題:10 Best Text Annotation Tools and Services for Machine Learning,作者: Limarc Ambalina
【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】