自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

這四款Python分詞工具,你用過嗎?

開發(fā) 后端
分詞工具在關(guān)鍵詞提取,在中文搜索領(lǐng)域都是非常重要的,在自然語言處理中有著常見的場景,python中,有很多開源的分詞工具,今天小編就跟大家介紹幾款。

[[397844]]

 1、 jieba 分詞 github地址:

https://github.com/fxsjy/jieba

“結(jié)巴”分詞,可以說是 GitHub 最受歡迎的分詞工具,支持自定義詞典,支持多種分詞模式,立志成為 Python 中最好的中文分詞組件。

 

這四款python分詞工具,你用過嗎?

 

2. pkuseg 分詞 github地址:

https://github.com/lancopku/pkuseg-python

pkuseg 的特點(diǎn)是支持多種不同的分詞領(lǐng)域,新聞、網(wǎng)絡(luò)、醫(yī)藥、v旅游等領(lǐng)域的分詞訓(xùn)練模型,相比于其他分詞工具,不但可以自由的選擇不同模型,而且可以提供更高的分詞準(zhǔn)確率。

 

這四款python分詞工具,你用過嗎?

 

3. FoolNLTK 分詞 github地址:

https://github.com/rockyzhengwu/FoolNLTK

FoolNLTK 分詞是基于BiLSTM模型訓(xùn)練而來的,支持用戶自定義詞典,有人說它是最準(zhǔn)確的開源中文分詞,不知道你有沒有嘗試過呢?

 

[[397845]]

 

4. THULAC github地址:

https://github.com/thunlp/THULAC-Python

THULAC由清華大學(xué)自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室,研制推出的具有詞性標(biāo)注功能的中文詞法分析工具包。能分析出某個(gè)詞是名詞還是動(dòng)詞或者形容詞。利用我們集成的目前世界上規(guī)模最大的人工分詞和詞性標(biāo)注中文語料庫(約含5800萬字)訓(xùn)練而成,模型標(biāo)注能力強(qiáng)大。該工具包在標(biāo)準(zhǔn)數(shù)據(jù)集Chinese Treebank(CTB5)上分詞的F1值可達(dá)97.3%,詞性標(biāo)注的F1值可達(dá)到92.9%,與該數(shù)據(jù)集上最好方法效果相當(dāng)。速度較快。

 

這四款python分詞工具,你用過嗎?

 

跟同事聊起分詞工具,他們很多人在用的還是結(jié)巴分詞,配合用戶自定義詞典,解決常見的網(wǎng)絡(luò)詞語。你在用哪個(gè)工具呢?

 

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2021-05-08 23:22:01

Python工具開發(fā)

2020-10-13 14:54:11

機(jī)器學(xué)習(xí)技術(shù)工具

2021-06-04 10:38:33

PythonIDE代碼編輯器

2020-05-27 14:41:51

主流軟件測試工具

2020-12-15 09:43:20

Python可視化工具網(wǎng)絡(luò)應(yīng)用

2020-09-09 10:53:06

前端開發(fā)工具

2024-11-08 09:37:10

C#組件

2024-03-21 10:39:24

CIOAI

2021-09-30 16:22:34

程序員工具編程

2016-07-28 09:37:30

開源協(xié)作軟件Collabtive

2024-09-06 18:01:24

2021-05-09 06:25:53

Word技巧開發(fā)工具

2020-06-03 16:50:09

Node.js框架開發(fā)

2021-05-21 05:24:03

Excel數(shù)據(jù)技巧

2019-06-27 16:28:39

數(shù)據(jù)可視化JupyterGoogle Char

2022-05-22 07:29:24

工具插件客戶端軟件

2016-12-26 09:49:28

Linux發(fā)行版

2023-11-22 07:42:01

2021-07-16 23:32:28

工具職場軟件

2024-05-07 07:40:26

Visual工具XAML
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號