自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

1GB文本標(biāo)記只需20秒!抱抱臉團(tuán)隊發(fā)布最新NLP工具

新聞 開發(fā)工具
專注NLP的強(qiáng)大團(tuán)隊抱抱臉(hugging face)又發(fā)新資源!這一次是幫助NLP過程中,詞語切分(tokenization)更快的Tokenizers。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

專注NLP的強(qiáng)大團(tuán)隊抱抱臉(hugging face)又發(fā)新資源!這一次是幫助NLP過程中,詞語切分(tokenization)更快的Tokenizers。

只要20秒就能編碼1GB文本,適用Rust、Python和Node.js,已經(jīng)在GitHub上獲得了800多星。

前不久,這個團(tuán)隊也憑借自己的技術(shù)實(shí)力獲得了1500萬美元的天使投資。

速度快,功能多樣

在NLP模型訓(xùn)練中,詞語標(biāo)記和切分往往是一個瓶頸。Tokenizer能夠訓(xùn)練新的詞匯,并且進(jìn)行標(biāo)記。

功能多樣:適用于BPE/byte-level-BPE/WordPiece/SentencePiece各種NLP處理模型。

可以完成所有的預(yù)處理:截斷(Truncate)、填補(bǔ)(Pad)、添加模型需要的特殊標(biāo)記。

速度超級快:只需要20秒就可以在CPU上標(biāo)記1GB的文本。

目前適用三種編程語言:Rust/Python/Node.js

使用示例

github的資源頁面上提供了在Python上使用Tokenizers的示例,進(jìn)行簡單的設(shè)置就可以使用:

也可以用Tokenizers進(jìn)行新詞訓(xùn)練:

雖然目前只可用于三種語言Python、JS、Rust,抱抱臉團(tuán)隊表示,將來會繼續(xù)升級以適用更多

抱抱臉團(tuán)隊最新進(jìn)展

抱抱臉團(tuán)隊是一個創(chuàng)業(yè)團(tuán)隊。他們的Transformers是github上最火的NLP項目,已經(jīng)獲得了20K星。

作為專注于自然語言處理的創(chuàng)業(yè)公司,他們的目標(biāo)是開發(fā)一個可以使用文字、照片、表情包的聊天機(jī)器人,名字叫做social AI 。

目前已經(jīng)經(jīng)過了三輪融資,共2000萬美元。其中,在2019年底的A輪融資中,公司獲得了1500萬美元,并打算將員工增加兩倍。

目前公司尚未盈利。創(chuàng)始人Clement Delangue在獲得A輪融資后表示,除了對話AI之外,公司正在構(gòu)建通用的NLP技術(shù),希望讓NLP技術(shù)滿足公司的多樣化需求。

傳送門

https://github.com/huggingface/tokenizers

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2014-08-04 15:13:27

光纖

2014-10-20 16:32:22

萬兆光纖韓國

2019-09-27 15:21:03

GitHub代碼開發(fā)者

2010-11-11 10:21:19

ESXi 4.1

2021-08-30 15:49:19

暗網(wǎng)數(shù)據(jù)泄露網(wǎng)絡(luò)攻擊

2009-02-10 09:21:02

2020-02-19 15:02:23

代碼開發(fā)工具

2018-01-17 17:11:13

OpenAI開源工具包

2024-04-08 08:03:00

ChatGPTOpenAI大語言模型

2021-08-02 10:23:16

人工智能無人機(jī)技術(shù)

2020-05-19 10:33:31

機(jī)器翻譯GitHubNLP

2025-01-26 12:08:03

2024-08-19 14:03:00

2011-09-29 09:52:34

惠普一體機(jī)

2023-01-10 14:25:24

微軟AI

2022-02-09 20:34:05

SSDSATA協(xié)議

2011-05-05 11:19:05

筆記本七喜U41-A101

2011-09-05 16:58:15

2013-10-22 10:17:17

2019-08-21 14:35:18

壓縮文件優(yōu)化過程Java
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號