自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何使用padlepadle 進(jìn)行意圖識(shí)別-開(kāi)篇

企業(yè)動(dòng)態(tài)
本次介紹了意圖識(shí)別是什么,意圖識(shí)別的重要性,意圖識(shí)別的難點(diǎn)以及后續(xù)的博客計(jì)劃,本質(zhì)上來(lái)說(shuō)意圖識(shí)別是屬于文本分類(lèi)的一種,和情感分析這類(lèi)工作沒(méi)有什么很大的區(qū)別。但是相比于情感分析,意圖識(shí)別的分類(lèi)種類(lèi)要比之前多了很多,準(zhǔn)確性以及可擴(kuò)展性的要求也高了不少。

前言    

意圖識(shí)別是通過(guò)分類(lèi)的辦法將句子或者我們常說(shuō)的query分到相應(yīng)的意圖種類(lèi)。舉一個(gè)簡(jiǎn)單的例子,我想聽(tīng)周杰倫的歌,這個(gè)query的意圖便是屬于音樂(lè)意圖,我想聽(tīng)郭德綱的相聲便是屬于電臺(tái)意圖。做好了意圖識(shí)別以后對(duì)于很多nlp的應(yīng)用都有很重要的提升,比如在搜索引擎領(lǐng)域使用意圖識(shí)別來(lái)獲取與用戶(hù)輸入的query最相關(guān)的信息。舉個(gè)例子,用戶(hù)在查詢(xún)"生化危機(jī)"時(shí),我們知道"生化危機(jī)"既有游戲還有電影,歌曲等等,如果我們通過(guò)意圖識(shí)別發(fā)現(xiàn)該用戶(hù)是想玩"生化危機(jī)"的游戲時(shí),那我們直接將游戲的查詢(xún)結(jié)果返回給用戶(hù),就會(huì)節(jié)省用戶(hù)的搜索點(diǎn)擊次數(shù),縮短搜索時(shí)間,大幅提高用戶(hù)的體驗(yàn)。再進(jìn)一步說(shuō),做好意圖識(shí)別以后,我們可以將一個(gè)用戶(hù)的query 限定到一個(gè)垂直領(lǐng)域比如通過(guò)意圖識(shí)別以后發(fā)現(xiàn)該用戶(hù)輸入的生化危機(jī)就是想找"生化危機(jī)"的游戲進(jìn)行下載,那么我們?cè)谟螒蜻@個(gè)領(lǐng)域下進(jìn)行搜索可以得到更高質(zhì)量的搜索結(jié)果,進(jìn)一步提高搜索體驗(yàn)。

我們?cè)倥e一個(gè)目前最火熱的聊天機(jī)器人來(lái)說(shuō)明一下意圖識(shí)別的重要性。目前各式各樣的聊天機(jī)器人,智能客服,智能音箱所能處理的問(wèn)題種類(lèi)都是有限制的。比如某聊天機(jī)器人目前只有30個(gè)技能,那么用戶(hù)向聊天機(jī)器人發(fā)出一個(gè)指令,聊天機(jī)器人首先得根據(jù)意圖識(shí)別將用戶(hù)的query分到某一個(gè)或者某幾個(gè)技能上去,然后再進(jìn)行后續(xù)的處理。如果一開(kāi)始的用戶(hù)意圖識(shí)別識(shí)別錯(cuò)了,那么后續(xù)的工作直接就是無(wú)用功了,會(huì)給用戶(hù)帶來(lái)非常不好的用戶(hù)體驗(yàn)。

說(shuō)了這么多,其實(shí)只是想說(shuō)明意圖識(shí)別是一件非常重要的工作。我們?cè)賮?lái)看看目前工業(yè)界的水平,就業(yè)界來(lái)看,目前一些公司的在特定領(lǐng)域的意圖識(shí)別準(zhǔn)確率已經(jīng)可以達(dá)到96%甚至更高了,在可以預(yù)見(jiàn)的未來(lái)意圖識(shí)別的準(zhǔn)確率只會(huì)更高,覆蓋范圍只會(huì)更廣, 在通用領(lǐng)域達(dá)到99%,甚至99.9%也只是時(shí)間早晚的問(wèn)題。而這個(gè)時(shí)間也許在兩到三年來(lái)就可以到來(lái)。

 做好了意圖識(shí)別以后,那種類(lèi)似于電影場(chǎng)景里面人機(jī)交互就有了實(shí)現(xiàn)的可能,用戶(hù)向機(jī)器發(fā)來(lái)的每一個(gè)query,機(jī)器都能準(zhǔn)確的理解用戶(hù)的意圖,然后準(zhǔn)確的給予回復(fù)。人與機(jī)器連續(xù),多輪自然的對(duì)話(huà)就可以借此實(shí)現(xiàn)了。想起來(lái)真的是非常的激動(dòng)。

意圖識(shí)別的前提

 在做這個(gè)工作之前,我們首先得想好意圖的劃分問(wèn)題,這種劃分業(yè)界有很多叫法,比如技能。我們的聊天機(jī)器人有30個(gè)技能,潛在意思便是我們的意圖有30類(lèi)。在2018年的CES上面,Google Assistant 號(hào)稱(chēng)有100萬(wàn)個(gè)技能,這個(gè)真的只能說(shuō)太厲害了。還有一種很通用的叫法叫領(lǐng)域 或者doamin,搜索引擎中的垂域搜索的意思是把用戶(hù)的query分為很多特定的領(lǐng)域比如電臺(tái)領(lǐng)域,音樂(lè)領(lǐng)域。搜索的時(shí)候根據(jù)意圖識(shí)別認(rèn)為這個(gè)query屬于電臺(tái)領(lǐng)域,于是便在電臺(tái)領(lǐng)域進(jìn)行搜索。如果意圖識(shí)別的準(zhǔn)確率比較高的話(huà),這樣便可以大大加快搜索的速度和準(zhǔn)確性。

 很多Google Assistant的技能也許只是簡(jiǎn)單的堆疊,但是對(duì)于聊天機(jī)器人來(lái)說(shuō),我們業(yè)界一直有個(gè)觀(guān)點(diǎn),意圖識(shí)別雖然是聊天機(jī)器人非常重要的一個(gè)部分,但是解析用戶(hù)的語(yǔ)義已經(jīng)慢慢不再成為對(duì)話(huà)機(jī)器人的核心,識(shí)別用戶(hù)的意圖以后提供的服務(wù)開(kāi)始成為對(duì)話(huà)機(jī)器人的產(chǎn)品差異化的核心。Goole Home 的100萬(wàn)個(gè)技能,絕對(duì)是這個(gè)領(lǐng)域殺手級(jí)別的競(jìng)爭(zhēng)力。

 其次是應(yīng)該想好意圖識(shí)別的可擴(kuò)展能力,尤其是在搜索領(lǐng)域,對(duì)話(huà)系統(tǒng)領(lǐng)域,隨著意圖覆蓋的范圍急劇增加,如何保證意圖的識(shí)別的準(zhǔn)確率不下降甚至還能有提升其實(shí)是個(gè)很困難的事情,但是也非常的重要,甚至也許是意圖識(shí)別最重要的一件事。不然你覆蓋的技能數(shù)上去了,但是意圖識(shí)別的準(zhǔn)確率下來(lái)了,其實(shí)很多時(shí)候是沒(méi)有什么意義的。

 意圖識(shí)別可擴(kuò)展能力的另外一方面體現(xiàn)在簡(jiǎn)單技能的自動(dòng)化生成,復(fù)雜技能的半自動(dòng)化生成或者第三方開(kāi)發(fā)者的開(kāi)發(fā)技能的快速接入。在可以預(yù)見(jiàn)的未來(lái),對(duì)話(huà)機(jī)器人的技能增加速度會(huì)非常的快。類(lèi)似于Google Assistant 的100萬(wàn)個(gè)技能,單憑人力或者某一家公司去開(kāi)發(fā)100萬(wàn)個(gè)技能,得開(kāi)發(fā)到猴年馬月去了。自動(dòng)化生成對(duì)話(huà)系統(tǒng)的技能,并且保持足夠的開(kāi)放性是每一家有追求的聊天機(jī)器人廠(chǎng)商應(yīng)該嚴(yán)肅思考的問(wèn)題。從業(yè)界來(lái)看,很多國(guó)內(nèi)聊天機(jī)器人的公司這一塊可能才剛剛起步,嘴上說(shuō)著要開(kāi)放,內(nèi)心其實(shí)比較抗拒,工作排期排的很后。至于技能自動(dòng)化生成也許還沒(méi)有思考到這一步來(lái)。

 ***一個(gè)方面是技能的評(píng)價(jià)問(wèn)題,當(dāng)一個(gè)開(kāi)發(fā)者開(kāi)發(fā)完一個(gè)技能或者模型自動(dòng)化生成一個(gè)技能以后如何評(píng)價(jià)一個(gè)技能生成的好壞也是非常重要的。簡(jiǎn)單一點(diǎn)來(lái)說(shuō)雖然我們生成了一個(gè)技能,但是也不能生成一個(gè)技能就接入到我們的搜素引擎當(dāng)中或者對(duì)話(huà)系統(tǒng)中來(lái),必需得符合一定的標(biāo)準(zhǔn)。比如我們?cè)谒阉饕娈?dāng)中開(kāi)發(fā)了音樂(lè) domain的垂域搜索.當(dāng)我們的意圖識(shí)別準(zhǔn)確的判別用戶(hù)的query"我想聽(tīng)周杰倫的歌"屬于音樂(lè)這個(gè)domain,并將query分過(guò)來(lái)到音樂(lè)領(lǐng)域進(jìn)行垂域搜索。如果音樂(lè)的垂域搜索做的很差給用戶(hù)返回的都是陳奕迅的歌。用戶(hù)體驗(yàn)也不會(huì)很好。就我看來(lái),技能評(píng)價(jià)應(yīng)該至少包括兩個(gè)方面評(píng)價(jià)。***個(gè)方面是效果上面的,如果我們用precision和recall來(lái)評(píng)價(jià)的話(huà),每一個(gè)接入的domain或者技能 的F1值必需大于某個(gè)值才可以接入。第二個(gè)方面是工程上面的,每個(gè)接入的技能都必須考慮到訪(fǎng)問(wèn)量大了以后不能宕機(jī)。這個(gè)對(duì)本公司開(kāi)發(fā)的技能不會(huì)有大的問(wèn)題,但是第三方開(kāi)發(fā)的技能,很多時(shí)候只考慮了功能的實(shí)現(xiàn)和效果上面的問(wèn)題,往往不會(huì)考慮訪(fǎng)問(wèn)量或者qps大了以后怎么處理,結(jié)果就會(huì)造成整體服務(wù)超時(shí)。所以這一點(diǎn)也是需要慎重考慮的。

意圖識(shí)別的基本方法

1. 基于詞典以及模版的規(guī)則方法

不同的意圖會(huì)有的不同的領(lǐng)域詞典,比如書(shū)名,歌曲名,商品名等等。當(dāng)一個(gè)用戶(hù)的意圖來(lái)了以后我們根據(jù)意圖和詞典的匹配程度或者重合程度來(lái)進(jìn)行判斷,最簡(jiǎn)單一個(gè)規(guī)則是哪個(gè)domain的詞典重合程度高,就將該query判別給這個(gè)領(lǐng)域。這個(gè)工作的重點(diǎn)便是領(lǐng)域詞典便須得做的足夠好。

2. 基于查詢(xún)點(diǎn)擊日志

如果是搜索引擎等類(lèi)型業(yè)務(wù)場(chǎng)景,那么我們可以通過(guò)點(diǎn)擊日志得到用戶(hù)的意圖。

3. 基于分類(lèi)模型來(lái)對(duì)用戶(hù)的意圖進(jìn)行判別

使用分類(lèi)方法是我們本次博客的重點(diǎn),我們將會(huì)使用paddle作為模型的基本框架以CNN外接softmax 和LSTM外接softmax來(lái)進(jìn)行意圖識(shí)別方面工作的探索。本系列也初步定為三篇博客,本篇會(huì)作為開(kāi)端篇做一些意圖識(shí)別方面的介紹。第二篇是會(huì)使用LSTM+softmax來(lái)進(jìn)行文本分類(lèi)。第三篇會(huì)使用CNN 外接softmax來(lái)進(jìn)行文本分類(lèi)。

意圖識(shí)別的難點(diǎn)

當(dāng)前意圖識(shí)別工作的難點(diǎn)有很多,在之前的介紹中也提到了一些,但是***的難點(diǎn)其實(shí)是在于標(biāo)注數(shù)據(jù)的獲取。目前標(biāo)注數(shù)據(jù)的獲取主要來(lái)自?xún)煞矫?,一方面是?zhuān)門(mén)的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,一方面是通過(guò)半監(jiān)督的方式自動(dòng)生成標(biāo)注數(shù)據(jù),我后續(xù)會(huì)在調(diào)研以后,來(lái)專(zhuān)門(mén)進(jìn)行這方面的介紹。本次會(huì)利用已有的標(biāo)注數(shù)據(jù)來(lái)進(jìn)行介紹。

總結(jié)

本次介紹了意圖識(shí)別是什么,意圖識(shí)別的重要性,意圖識(shí)別的難點(diǎn)以及后續(xù)的博客計(jì)劃,本質(zhì)上來(lái)說(shuō)意圖識(shí)別是屬于文本分類(lèi)的一種,和情感分析這類(lèi)工作沒(méi)有什么很大的區(qū)別。但是相比于情感分析,意圖識(shí)別的分類(lèi)種類(lèi)要比之前多了很多,準(zhǔn)確性以及可擴(kuò)展性的要求也高了不少。敬請(qǐng)期待后續(xù)博客的更新。

責(zé)任編輯:張燕妮 來(lái)源: 景略集智
相關(guān)推薦

2020-12-22 21:57:39

人臉識(shí)別AI人工智能

2023-01-30 17:14:40

人工智能語(yǔ)音識(shí)別

2020-03-27 20:22:53

數(shù)據(jù)集裝箱網(wǎng)絡(luò)

2024-12-13 15:53:58

VLM小型視覺(jué)語(yǔ)言模型LLM

2023-05-19 07:25:34

2017-09-08 13:30:32

深度學(xué)習(xí)圖像識(shí)別卷積神經(jīng)網(wǎng)絡(luò)

2022-10-08 08:36:02

UbuntuLinux語(yǔ)音識(shí)別

2023-01-29 14:29:59

Python識(shí)別車(chē)牌

2021-06-23 09:25:57

鴻蒙HarmonyOS應(yīng)用

2021-02-22 13:44:41

開(kāi)發(fā)Python金融

2023-04-12 08:00:00

人工智能ChatGPTPython

2014-12-25 10:15:37

DockerJava

2025-01-27 11:52:23

2020-10-15 12:00:01

Python 開(kāi)發(fā)編程語(yǔ)言

2018-04-16 09:42:25

編程顏色ncurses

2009-08-21 16:44:01

2010-06-03 10:04:26

Hadoop安裝

2022-05-06 19:53:33

Java serve

2022-11-02 14:45:24

Python數(shù)據(jù)分析工具

2013-05-21 11:20:37

Android游戲開(kāi)發(fā)View手勢(shì)識(shí)別
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)