Github一周熱門項(xiàng)目總結(jié):自然語言處理Python庫spaCy最熱!
過去一周,Github上最熱門的項(xiàng)目當(dāng)屬自然語言處理Python庫spaCy,該項(xiàng)目最近更新到了2.0版本。SpaCy是一個基于自然語言處理研究創(chuàng)建的開源項(xiàng)目,目的是最終將其用于真實(shí)的產(chǎn)品和解決方案。2.0版本增加了幾個新功能,包括新的神經(jīng)網(wǎng)絡(luò)模型,支持更多的語言和改進(jìn)的文檔。
SpaCy的作者M(jìn)atthew Honnibal在發(fā)行說明中寫道,新版本通過***的深度學(xué)習(xí)技術(shù)對spaCy進(jìn)行了更新,并使得在可擴(kuò)展的云計算工作流程中運(yùn)行spaCy變得更加容易。
新版本包含了13種神經(jīng)網(wǎng)絡(luò)模型,可用于七種以上語言。它還增加了對八種新語言(英語,德語,西班牙語,葡萄牙語,法語,意大利語,荷蘭語和多語言NER)的Alpha標(biāo)記化支持。它使用bloom嵌入策略來支持小表中的大型詞匯表。核心神經(jīng)網(wǎng)絡(luò)模型具有詞性標(biāo)簽,依賴標(biāo)簽和命名實(shí)體,小型模型將僅具有上下文特定的標(biāo)記向量,而中等模型將具有詞向量。
對于這個版本,大部分使用指南,API文檔和代碼示例都被重寫了。該文檔包含有關(guān)自定義處理管道,可視化工具,培訓(xùn)教程,單詞向量和基于規(guī)則的匹配信息?,F(xiàn)在有一個spaCy 101指南,其中包含重要概念的解釋和說明以及庫的特色總結(jié)。
自從一個星期前更新到2.0版以來,已經(jīng)發(fā)布了2.0.3版以解決一些bug,甚至通過添加視頻,更新培訓(xùn)提示和建議等部分來進(jìn)一步更新文檔。
Github上周其他五大熱門項(xiàng)目(根據(jù)Trending排行榜得出,感興趣可直接在Github中搜索項(xiàng)目名稱獲取詳細(xì)信息):
-
Git flight rules:使用Git的程序員指南。如果事情出錯,開發(fā)人員可以通過該項(xiàng)目看看可以做什么。
-
State of the art result for machine learning problems:正如名稱所述,SoTA可以解決所有機(jī)器學(xué)習(xí)問題。
-
Node best practices:Node.js***實(shí)踐列表
-
JS code to SVG flowchart:用于將JS代碼轉(zhuǎn)換成SVG流程圖的可視化庫。
-
Tensorflow:機(jī)器學(xué)習(xí)開源軟件庫。