自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

十個推薦開源免費文本標注工具

人工智能
通過文本標注,我們可以教AI模型識別文本中的實體、理解上下文,并在出現(xiàn)新的類似數(shù)據(jù)時做出準確的預測。本文主要推薦一些較好的開源文本標注工具。

文本標注工作是將標簽或標記與文本的特定部分(如短語、單詞或句子)相關聯(lián)的過程。其目的是提供有關文本的額外信息,用于進一步的分析或處理,特別是在人工智能領域。

文本標注對于人工智能應用中的監(jiān)督機器學習任務至關重要。用于訓練AI模型,有助更準確地理解自然語言文本信息,提高文本分類、情感分析和語言翻譯等任務的性能。通過文本標注,我們可以教AI模型識別文本中的實體、理解上下文,并在出現(xiàn)新的類似數(shù)據(jù)時做出準確的預測。

本文主要推薦一些較好的開源文本標注工具。

1.Label Studio

https://github.com/HumanSignal/label-studio

Label Studio是一個開源數(shù)據(jù)標注工具,支持各種數(shù)據(jù)類型并導出為多種模型格式。用于準備原始數(shù)據(jù)或增強現(xiàn)有的訓練數(shù)據(jù),以獲得更準確的機器學習模型。

2.Doccano

https://github.com/doccano/doccano

Doccano是一個開源文本標注工具,提供文本分類、序列標記和序列任務的功能。它支持文本標注團隊協(xié)作、多語言、移動應用、表情符號、深色主題和REST風格的API??梢允褂肈ocker和Docker Compose安裝。

3.Universal Data Tool

https://github.com/UniversalDataTool/universal-data-tool

Universal Data Tool是一個用于編輯和注釋各種類型的數(shù)據(jù)(包括圖像、文本、音頻和文檔)的多功能應用程序。它支持廣泛的數(shù)據(jù)類型,并提供實時協(xié)作、易于使用的GUI、為文本標注人員創(chuàng)建培訓課程等功能。該工具可以在網(wǎng)絡上使用,也可以作為桌面應用程序使用,并支持CSV或JSON格式的數(shù)據(jù)下載和上傳。

4.YEDDA

https://github.com/jiesutd/YEDDA

YEDDA是一個可以用于各種語言、符號和表情符號的文本標注工具。它支持使用快捷方式、命令模型,并將標注文本導出為序列文本。支持智能推薦和管理員分析等功能。

YEDDA兼容所有主流操作系統(tǒng),包括Windows、Linux和MacOS。

5.Argilla

https://github.com/argilla-io/argilla

Argilla是一個面向人工智能工程師和領域?qū)<业拈_源數(shù)據(jù)協(xié)作平臺,提供高質(zhì)量、高效率的數(shù)據(jù)輸出。

它有助于控制數(shù)據(jù)質(zhì)量并提高AI輸出質(zhì)量,并通過實現(xiàn)數(shù)據(jù)和模型的快速迭代來提高效率。Argilla還提供了數(shù)據(jù)管理和模型訓練工具。

6.KernAI Refinery

https://github.com/code-kern-ai/refinery

Refinery是KernAI的一個開源平臺,專為處理自然語言數(shù)據(jù)的數(shù)據(jù)科學家設計。它提供半自動化數(shù)據(jù)標注、數(shù)據(jù)子集質(zhì)量評估和集中數(shù)據(jù)監(jiān)控等功能,旨在提高人工標記效率。

該工具利用Hugging Face和spaCy等技術構(gòu)建預建語言模型,并與其他標簽工具集成,以實現(xiàn)靈活的數(shù)據(jù)處理。

功能特征:

  • NLP任務的(半)自動化標簽工作流程
  • 手動和程序化分類以及跨度標簽
  • 支持與最先進的庫和框架集成
  • 創(chuàng)建和管理查找表/知識庫
  • 基于神經(jīng)搜索的相似記錄和離群值檢索
  • 可切片標簽會話
  • 每個項目多個標簽任務
  • 豐富的自動化庫
  • 廣泛的數(shù)據(jù)管理和監(jiān)控
  • 與Hugging Face集成,用于自動創(chuàng)建嵌入
  • 基于JSON的數(shù)據(jù)模型用于數(shù)據(jù)上傳/下載
  • 項目指標概述
  • 通過Python SDK訪問和擴展數(shù)據(jù)
  • 在位屬性修改
  • 托管版本中的團隊協(xié)作
  • 面向多個用戶的基于角色的訪問和最小化的標簽視圖
  • 集成群組標簽工作流
  • 自動計算注釋者之間的協(xié)

7.Recogito.js

https://github.com/recogito/recogito-js

ApplitoJS是一個用于文本注釋的JavaScript庫,用于向網(wǎng)頁添加文本標注功能或構(gòu)建自定義文本標注程序??梢酝ㄟ^npm或下載最新版本來安裝。

8.Label Sleuth

https://github.com/label-sleuth/label-sleuth

Label Sleuth是一個用于文本標注和分類的開源、無代碼系統(tǒng)。它使醫(yī)生、律師、心理學家等領域的專家也能夠在沒有NLP專家配合的情況下構(gòu)建自定義NLP模型。

通常NLP模型創(chuàng)建需要領域和機器學習專業(yè)知識。Label Sleuth通過直觀的文本標注和AI模型構(gòu)建,繞開了對NLP專業(yè)知識的要求。當用戶在標注數(shù)據(jù)時,機器學習模型在后臺進行訓練,進行預測并建議下一步標記什么。

作為一個無代碼系統(tǒng),它不需要機器學習知識,并允許快速開發(fā)模型,從任務定義到完成模型只需幾個小時。

9.Markup

https://github.com/samueldobbie/markup

Markup是一種在線標注工具,可用于將非結(jié)構(gòu)化文檔轉(zhuǎn)換為NLP和ML任務的結(jié)構(gòu)化格式,例如:實體識別。在您標注時進行同步學習,以預測和推薦更為復雜的標注,并且還提供對用于概念映射的通用和自定義本體的集成訪問。

功能特征:

  • 預測性注釋:Markup的機器學習驅(qū)動的預測性標注功能,可在您工作時推薦更復雜的標注,使標注的過程更加高效。
  • 集成本體訪問標記:提供了對廣泛的通用本體(例如UMLS、SNOMED-CT、ICD-10)的集成訪問,以及上傳自定義本體的能力,用于概念映射。
  • 預測性本體映射:Markup的預測性本體映射功能使用機器學習,根據(jù)您正在標注的文本,推薦到標準和自定義術語的適當映射。 
  • 友好的用戶界面:無論您是技術專家還是初學者,標記的用戶友好的界面使任何人都可以輕松地以最小的設置開始注釋文檔。

10.Potato

https://github.com/davidjurgens/potato

Potato是一個基于Web的文本標注工具,支持快速設置和部署各種文本標注任務??梢宰鳛閃eb服務器運行,由單個配置文件驅(qū)動,不需要啟動編碼。但Potato很容易自定義,通常不需要額外的網(wǎng)頁設計,就可以調(diào)整文本標注人員的操作界面。

關鍵特征:

  • 易于設置和定制
  • 廣泛的內(nèi)置模式和模板
  • 支持多種數(shù)據(jù)類型
  • 支持多任務設置
  • 通過鍵盤快捷鍵、動態(tài)高亮顯示和標簽工具提示等功能提高標注效率
  • 更好地了解注釋者的功能,例如篩選前和篩選后的問題
  • 質(zhì)量控制功能,如注意力測試、資格測試和內(nèi)置時間檢查
責任編輯:趙寧寧 來源: andflow
相關推薦

2024-03-27 14:32:47

圖像標注開源機器學習

2024-01-12 16:01:10

2023-11-22 19:24:36

2023-12-14 17:21:29

2023-05-31 10:08:51

2019-03-15 09:17:22

Web測試工具

2023-11-28 09:20:44

2024-03-04 18:57:00

A/B測試開源

2023-07-14 10:53:00

開源前端

2017-12-18 10:50:54

2012-06-25 14:30:48

Web

2010-10-27 09:39:50

云計算

2023-04-28 08:42:22

Node.js開源項目

2010-12-14 09:37:02

數(shù)據(jù)挖掘工具開源

2023-04-13 11:39:05

2022-12-20 12:06:06

開源項目APP

2022-07-05 14:00:49

編排工具自動化

2017-09-13 16:54:38

web

2024-03-20 17:35:42

2022-09-16 15:54:56

開源C語言
點贊
收藏

51CTO技術棧公眾號