自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NLP模型也有“老師”了!裝上這個(gè)開源庫(kù),1毫秒糾正語(yǔ)法錯(cuò)誤

新聞 前端
當(dāng)NLP模型產(chǎn)生了語(yǔ)法錯(cuò)誤,怎么辦?沒關(guān)系,現(xiàn)在可以像小時(shí)候的英語(yǔ)老師,改作文一樣簡(jiǎn)單。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

 當(dāng)NLP模型產(chǎn)生了語(yǔ)法錯(cuò)誤,怎么辦?

比如,He wants that you send him an email.

沒關(guān)系,現(xiàn)在可以像小時(shí)候的英語(yǔ)老師,改作文一樣簡(jiǎn)單。

[[376989]]

只要裝上一個(gè)專門糾正語(yǔ)法錯(cuò)誤的庫(kù)就可以,還是毫秒鐘就可揪出來(lái)的那種。

這不,把“that”改成“to”不就可以了嗎~

糾正過(guò)來(lái)就是:

He wants you to send him an email.

(不會(huì)真有人看不出其中的語(yǔ)法錯(cuò)誤吧)

再比如這句。

I can due his homework.

應(yīng)該變成:I can do his homework.

NLP模型也有“老師”了!裝上這個(gè)開源庫(kù),1毫秒糾正語(yǔ)法錯(cuò)誤

好像這些語(yǔ)法錯(cuò)誤,都有點(diǎn)太過(guò)明顯了。那就來(lái)復(fù)雜一點(diǎn)的。

Thanks for your’s and Lucy’s help.

系統(tǒng)就會(huì)改成:

Thanks for yours and Lucy’s help.

NLP模型也有“老師”了!裝上這個(gè)開源庫(kù),1毫秒糾正語(yǔ)法錯(cuò)誤

這就是最近一位AI專業(yè)本科生Benjamin Minixhofer,利用假期時(shí)間開發(fā)出來(lái)的一款快速糾正語(yǔ)法錯(cuò)誤的庫(kù)NLPRule

[[376990]]

它是由Rust編寫的一個(gè)基于LanguageTool語(yǔ)法規(guī)則的逆向工程。

LanguageTool是一款開放源代碼校對(duì)軟件,適用于英語(yǔ),法語(yǔ),德語(yǔ),波蘭語(yǔ),俄語(yǔ)以及20多種其他語(yǔ)言,它可以發(fā)現(xiàn)許多拼寫檢查器無(wú)法檢測(cè)到的錯(cuò)誤。

一經(jīng)發(fā)出,就在Reddit上獲得了200+的熱度。

NLP模型也有“老師”了!裝上這個(gè)開源庫(kù),1毫秒糾正語(yǔ)法錯(cuò)誤

如何實(shí)現(xiàn)?

NLPRule是將語(yǔ)法規(guī)則與ML模型結(jié)合起來(lái),主要應(yīng)用于NLP的預(yù)處理和NLG的后處理。

在作者看來(lái),使用基于語(yǔ)法規(guī)則的方法有兩大優(yōu)勢(shì)。

一是速度。作者使用第8代英特爾,糾正一個(gè)句子只需要不到1毫秒的時(shí)間。

二是語(yǔ)法錯(cuò)誤的訓(xùn)練數(shù)據(jù)極度稀少,ML模型無(wú)法處理。

比如,就像這句“It is enough for all intensive purposes. ”

就包含了一個(gè)錯(cuò)誤。除非特別說(shuō)明,ML模型基本上不能糾正這個(gè)錯(cuò)誤,因?yàn)樗鼛缀醪粫?huì)出現(xiàn)在其訓(xùn)練數(shù)據(jù)當(dāng)中。

而若是放在其他語(yǔ)言數(shù)據(jù)中,肯定會(huì)比英語(yǔ)更少。

比如,中文。

作者創(chuàng)建這個(gè)庫(kù)的目的在于創(chuàng)建一個(gè)快速、輕量級(jí)的引擎來(lái)運(yùn)行自然語(yǔ)言規(guī)則,無(wú)需依賴JVM(Java虛擬運(yùn)行環(huán)境)速度、內(nèi)存的影響。

目前,這個(gè)庫(kù)支持英語(yǔ)和德語(yǔ)。

NLP模型也有“老師”了!裝上這個(gè)開源庫(kù),1毫秒糾正語(yǔ)法錯(cuò)誤

具體安裝可分成如下四個(gè)步驟,詳細(xì)可戳文末鏈接。

NLP模型也有“老師”了!裝上這個(gè)開源庫(kù),1毫秒糾正語(yǔ)法錯(cuò)誤

在GPT-2進(jìn)行文本測(cè)試

接著,作者就嘗試用GPT-2生成的文本來(lái)測(cè)試,結(jié)果產(chǎn)生了大量的改進(jìn)建議。

NLP模型也有“老師”了!裝上這個(gè)開源庫(kù),1毫秒糾正語(yǔ)法錯(cuò)誤

比如語(yǔ)法錯(cuò)誤。

Before: …t out, as a condition of its being operated. Each lock keeper should ensure >that all locks are operated and tha…

After: …t out, as a condition of its being operated. Each lockkeeper should ensure that all locks are operated and tha…

Message: This noun is normally spelled as one word.

Type: grammar

NLP模型也有“老師”了!裝上這個(gè)開源庫(kù),1毫秒糾正語(yǔ)法錯(cuò)誤

再比如拼寫錯(cuò)誤。

Before: …he Z-machine version (in the standardised format) is comprised of 32 (in total) >bytes, one per line. …

After: …he Z-machine version (in the standardised format) comprises 32 (in total) bytes, one per line. …

Message: Did you mean comprises or consists of or is composed of?

Type: misspelling

NLP模型也有“老師”了!裝上這個(gè)開源庫(kù),1毫秒糾正語(yǔ)法錯(cuò)誤

一經(jīng)發(fā)出,不少網(wǎng)友直呼:Fantastic!

NLP模型也有“老師”了!裝上這個(gè)開源庫(kù),1毫秒糾正語(yǔ)法錯(cuò)誤

也有網(wǎng)友想到,如果跟BERT或者其他Transformer模型結(jié)合起來(lái),會(huì)不會(huì)生成更好的句子呢?

NLP模型也有“老師”了!裝上這個(gè)開源庫(kù),1毫秒糾正語(yǔ)法錯(cuò)誤

想要了解更多細(xì)節(jié),吶~傳送門送上!

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2013-11-11 11:17:45

AngularJS性能優(yōu)化

2012-03-11 15:27:57

微軟

2014-08-04 15:13:27

光纖

2021-04-27 06:20:25

MySQL集群優(yōu)化

2009-12-09 10:46:06

PHP檢查語(yǔ)法錯(cuò)誤

2017-10-31 15:28:27

RUDP傳輸優(yōu)化實(shí)踐

2022-06-15 11:27:15

開源代碼項(xiàng)目

2017-05-31 13:58:05

戴爾宕機(jī)服務(wù)器

2021-03-29 10:37:35

開源技術(shù) 開發(fā)

2024-11-08 15:08:17

2021-12-08 09:47:21

安卓系統(tǒng)模型

2018-11-23 10:01:57

5G標(biāo)準(zhǔn)網(wǎng)絡(luò)

2024-04-12 09:02:15

JavaCPU執(zhí)行時(shí)間線程

2021-02-06 13:00:11

工具監(jiān)控服務(wù)器

2025-04-03 09:45:51

2021-04-22 07:29:46

數(shù)據(jù)展現(xiàn)方式

2021-05-19 15:35:19

數(shù)據(jù)庫(kù)工具技術(shù)

2023-12-05 18:00:27

MySQLSQL
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)