盛大創(chuàng)新院和搜狗研究員:自然語(yǔ)言處理的應(yīng)用
盛大創(chuàng)新院搜索主題院研究員賈文杰:面向搜索的中文分詞系統(tǒng)
盛大創(chuàng)新院搜索主題院研究員賈文杰做了《面向搜索的中文分詞系統(tǒng)》的主題演講。他認(rèn)為“無(wú)論是搜索還是推薦,做中文的互聯(lián)網(wǎng)智能化處理,分詞就是一個(gè)必不可少的步驟。”
分詞應(yīng)用的地方***個(gè)是搜索,使用分詞使得詞表大大擴(kuò)大,基于詞做索引,后面的鏈條會(huì)大幅減少,倒排列表縮減會(huì)減少時(shí)間;第二個(gè)應(yīng)用是上下文廣告,比如推薦系統(tǒng),“不管是做閱讀、視頻還是圖片,或者是電商,基于內(nèi)容相似度做推薦,不管是基于空間模型還是短本做推薦,***步分詞。”
賈文杰介紹,中文分詞的難點(diǎn)***個(gè)是切分歧義,對(duì)于語(yǔ)言單位有多種方法,第二個(gè)難點(diǎn)是未登錄詞,做分詞系統(tǒng)沒(méi)有的詞或者是沒(méi)有出現(xiàn)的詞。
基于此,中文分詞目前常見(jiàn)的算法包括無(wú)指導(dǎo)切分、基于詞典的機(jī)械分詞、基于語(yǔ)言模型的切分,基于字標(biāo)注的切分。其中基于語(yǔ)言模型的方法是最常用的方法。
“做這樣的分詞系統(tǒng)有哪些核心工作要做呢?***個(gè),原子詞識(shí)別,一些簡(jiǎn)單的命名實(shí)體,包括網(wǎng)址、時(shí)間、數(shù)字、日期,難點(diǎn)是規(guī)則整理,比如時(shí)間的表達(dá)非常多。第二個(gè)模塊命名實(shí)體識(shí)別,除了前面的命名實(shí)體,剩下的主要是人名、地名、機(jī)構(gòu)名,基于正則表達(dá)式寫不出來(lái),怎么來(lái)做?基于序列標(biāo)注方法做,用一些方法把不在詞典的詞找出來(lái)。”
訓(xùn)練語(yǔ)言模型需要收集分詞的語(yǔ)料庫(kù),目前的語(yǔ)料庫(kù)有富士通和北京大學(xué)做的人民日?qǐng)?bào)語(yǔ)料庫(kù),賓州中文樹(shù)庫(kù),臺(tái)北中研院的樹(shù)庫(kù)。
人民日?qǐng)?bào)語(yǔ)料庫(kù)有1400萬(wàn)詞,是***語(yǔ)料庫(kù),但是問(wèn)題是缺少新詞,創(chuàng)立年限太久,表達(dá)方式語(yǔ)序發(fā)生了很大變化,還有規(guī)模仍然不夠大。
賈文杰介紹了盛大創(chuàng)新院推出的盛大云分詞,它的優(yōu)點(diǎn)是是分詞結(jié)果較好,分詞更快、而且是活的分詞,分詞保持不斷更新,再者針對(duì)搜索進(jìn)行了優(yōu)化,***還支持中英文之外的其他語(yǔ)言分詞。
搜狗自然語(yǔ)言處理助理研究員張帆:搜索查詢意圖識(shí)別
搜狗自然語(yǔ)言處理助理研究員張帆做了《搜索查詢意圖識(shí)別》的主題演講,他認(rèn)為意圖識(shí)別是知道用戶想干什么,以便更好地滿足用戶需求。
現(xiàn)有的搜索引擎分為兩類:通用搜索引擎和垂直搜索引擎,兩種搜索引擎各有特點(diǎn)。通用搜索引擎抓取互聯(lián)網(wǎng)上一切有價(jià)值的東西、統(tǒng)一建立索引,以關(guān)鍵字匹配為基本檢索方式,以網(wǎng)頁(yè)title和summary為展現(xiàn)方式。通用搜索引擎以百度、谷歌、搜狗、搜搜、有道為代表。
垂直搜索引擎以一定類別為主題,只抓取與主題相關(guān)的信息,更具主題特點(diǎn)有針對(duì)性的建立相應(yīng)的索引檢索方式,篩選方式以及展現(xiàn)方式,以機(jī)票搜索、地圖搜索、購(gòu)物搜索等為代表。
“通用搜索引擎的缺點(diǎn)是通用,不夠準(zhǔn)確,垂直搜索引擎的缺點(diǎn)是用戶需要記住多個(gè)網(wǎng)站。有沒(méi)有辦法將二者結(jié)合?”張帆如此表示,“識(shí)別查詢?cè)~對(duì)應(yīng)的垂直搜索,并從中獲取結(jié)果嵌入到通用搜索引擎中,可以為用戶提供很好的體驗(yàn)。”這也就是意圖識(shí)別用途。
意圖識(shí)別的難點(diǎn)包括:輸入不規(guī)范、意圖太多、意圖強(qiáng)度的區(qū)分、語(yǔ)料持續(xù)準(zhǔn)確獲取、搜索結(jié)果的可靠性、時(shí)效性的問(wèn)題。
張帆提出了進(jìn)行意圖識(shí)別的幾個(gè)方法:
詞表窮舉法,最簡(jiǎn)單直接的方法,通過(guò)詞表的直接匹配來(lái)獲取查詢意圖,它的實(shí)現(xiàn)方法是建立白名單系統(tǒng)、建立詞表擴(kuò)展系統(tǒng)、建立詞表預(yù)處理系統(tǒng),這種方法優(yōu)點(diǎn)是簡(jiǎn)單易實(shí)現(xiàn),缺點(diǎn)是召回比較低,人工比例較高。
規(guī)則解析法,適用于一些查詢索然不集中淡非常符合規(guī)則的類別,通過(guò)規(guī)則解析查詢來(lái)做一同識(shí)別和關(guān)鍵信息提取的。比如匯率查詢、計(jì)算器、度量衡等。它的優(yōu)點(diǎn)是信息提取準(zhǔn)確,不足是只適用于規(guī)則性較強(qiáng)的類別。
統(tǒng)計(jì)模型分類法,一般有兩種分類,一種是基于查詢?cè)~本身的分類,另一種是基于查詢?cè)~結(jié)果進(jìn)行分類,這種方法適用于一些查詢較為分散,且規(guī)則不明確的類別。這是最常用的方法,覆蓋面***的方法。這種方法的不足是實(shí)現(xiàn)較為復(fù)雜,數(shù)據(jù)獲取、更新困難。
張帆介紹稱,除此之外,還有一些特殊的意圖識(shí)別方法,比如微博類意圖識(shí)別,實(shí)現(xiàn)方法是對(duì)搜索結(jié)果進(jìn)行時(shí)效性判斷。
張帆認(rèn)為,意圖識(shí)別未來(lái)的發(fā)展的幾個(gè)方向是無(wú)類別概念的意圖識(shí)別,個(gè)性化意圖識(shí)別,精準(zhǔn)意圖識(shí)別以及語(yǔ)音應(yīng)用的意圖識(shí)別。(張睿)