自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

盛大創(chuàng)新院和搜狗研究員：自然語(yǔ)言處理的應(yīng)用

作者：佚名 2012-06-27 09:38:25

企業(yè)動(dòng)態(tài) 自然語(yǔ)言處理

【TechWeb報(bào)道】6月26日消息，盛大創(chuàng)新院搜索主題院研究員賈文杰和搜狗自然語(yǔ)言處理助理研究員張帆今天做客第165期IT龍門陣，分享了關(guān)于自然語(yǔ)言處理的應(yīng)用和難點(diǎn)。

【TechWeb報(bào)道】6月26日消息，盛大創(chuàng)新院搜索主題院研究員賈文杰和搜狗自然語(yǔ)言處理助理研究員張帆今天做客第165期IT龍門陣，分享了關(guān)于自然語(yǔ)言處理的應(yīng)用和難點(diǎn)。

盛大創(chuàng)新院搜索主題院研究員賈文杰：面向搜索的中文分詞系統(tǒng)

盛大創(chuàng)新院搜索主題院研究員賈文杰做了《面向搜索的中文分詞系統(tǒng)》的主題演講。他認(rèn)為“無(wú)論是搜索還是推薦，做中文的互聯(lián)網(wǎng)智能化處理，分詞就是一個(gè)必不可少的步驟。”

分詞應(yīng)用的地方***個(gè)是搜索，使用分詞使得詞表大大擴(kuò)大，基于詞做索引，后面的鏈條會(huì)大幅減少，倒排列表縮減會(huì)減少時(shí)間；第二個(gè)應(yīng)用是上下文廣告，比如推薦系統(tǒng)，“不管是做閱讀、視頻還是圖片，或者是電商，基于內(nèi)容相似度做推薦，不管是基于空間模型還是短本做推薦，***步分詞。”

賈文杰介紹，中文分詞的難點(diǎn)***個(gè)是切分歧義，對(duì)于語(yǔ)言單位有多種方法，第二個(gè)難點(diǎn)是未登錄詞，做分詞系統(tǒng)沒(méi)有的詞或者是沒(méi)有出現(xiàn)的詞。

基于此，中文分詞目前常見(jiàn)的算法包括無(wú)指導(dǎo)切分、基于詞典的機(jī)械分詞、基于語(yǔ)言模型的切分，基于字標(biāo)注的切分。其中基于語(yǔ)言模型的方法是最常用的方法。

“做這樣的分詞系統(tǒng)有哪些核心工作要做呢？***個(gè)，原子詞識(shí)別，一些簡(jiǎn)單的命名實(shí)體，包括網(wǎng)址、時(shí)間、數(shù)字、日期，難點(diǎn)是規(guī)則整理，比如時(shí)間的表達(dá)非常多。第二個(gè)模塊命名實(shí)體識(shí)別，除了前面的命名實(shí)體，剩下的主要是人名、地名、機(jī)構(gòu)名，基于正則表達(dá)式寫不出來(lái)，怎么來(lái)做？基于序列標(biāo)注方法做，用一些方法把不在詞典的詞找出來(lái)。”

訓(xùn)練語(yǔ)言模型需要收集分詞的語(yǔ)料庫(kù)，目前的語(yǔ)料庫(kù)有富士通和北京大學(xué)做的人民日?qǐng)?bào)語(yǔ)料庫(kù)，賓州中文樹(shù)庫(kù)，臺(tái)北中研院的樹(shù)庫(kù)。

人民日?qǐng)?bào)語(yǔ)料庫(kù)有1400萬(wàn)詞，是***語(yǔ)料庫(kù)，但是問(wèn)題是缺少新詞，創(chuàng)立年限太久，表達(dá)方式語(yǔ)序發(fā)生了很大變化，還有規(guī)模仍然不夠大。

賈文杰介紹了盛大創(chuàng)新院推出的盛大云分詞，它的優(yōu)點(diǎn)是是分詞結(jié)果較好，分詞更快、而且是活的分詞，分詞保持不斷更新，再者針對(duì)搜索進(jìn)行了優(yōu)化，***還支持中英文之外的其他語(yǔ)言分詞。

搜狗自然語(yǔ)言處理助理研究員張帆：搜索查詢意圖識(shí)別

搜狗自然語(yǔ)言處理助理研究員張帆做了《搜索查詢意圖識(shí)別》的主題演講，他認(rèn)為意圖識(shí)別是知道用戶想干什么，以便更好地滿足用戶需求。

現(xiàn)有的搜索引擎分為兩類：通用搜索引擎和垂直搜索引擎，兩種搜索引擎各有特點(diǎn)。通用搜索引擎抓取互聯(lián)網(wǎng)上一切有價(jià)值的東西、統(tǒng)一建立索引，以關(guān)鍵字匹配為基本檢索方式，以網(wǎng)頁(yè)title和summary為展現(xiàn)方式。通用搜索引擎以百度、谷歌、搜狗、搜搜、有道為代表。

垂直搜索引擎以一定類別為主題，只抓取與主題相關(guān)的信息，更具主題特點(diǎn)有針對(duì)性的建立相應(yīng)的索引檢索方式，篩選方式以及展現(xiàn)方式，以機(jī)票搜索、地圖搜索、購(gòu)物搜索等為代表。

“通用搜索引擎的缺點(diǎn)是通用，不夠準(zhǔn)確，垂直搜索引擎的缺點(diǎn)是用戶需要記住多個(gè)網(wǎng)站。有沒(méi)有辦法將二者結(jié)合？”張帆如此表示，“識(shí)別查詢?cè)~對(duì)應(yīng)的垂直搜索，并從中獲取結(jié)果嵌入到通用搜索引擎中，可以為用戶提供很好的體驗(yàn)。”這也就是意圖識(shí)別用途。

意圖識(shí)別的難點(diǎn)包括：輸入不規(guī)范、意圖太多、意圖強(qiáng)度的區(qū)分、語(yǔ)料持續(xù)準(zhǔn)確獲取、搜索結(jié)果的可靠性、時(shí)效性的問(wèn)題。

張帆提出了進(jìn)行意圖識(shí)別的幾個(gè)方法：

詞表窮舉法，最簡(jiǎn)單直接的方法，通過(guò)詞表的直接匹配來(lái)獲取查詢意圖，它的實(shí)現(xiàn)方法是建立白名單系統(tǒng)、建立詞表擴(kuò)展系統(tǒng)、建立詞表預(yù)處理系統(tǒng)，這種方法優(yōu)點(diǎn)是簡(jiǎn)單易實(shí)現(xiàn)，缺點(diǎn)是召回比較低，人工比例較高。

規(guī)則解析法，適用于一些查詢索然不集中淡非常符合規(guī)則的類別，通過(guò)規(guī)則解析查詢來(lái)做一同識(shí)別和關(guān)鍵信息提取的。比如匯率查詢、計(jì)算器、度量衡等。它的優(yōu)點(diǎn)是信息提取準(zhǔn)確，不足是只適用于規(guī)則性較強(qiáng)的類別。

統(tǒng)計(jì)模型分類法，一般有兩種分類，一種是基于查詢?cè)~本身的分類，另一種是基于查詢?cè)~結(jié)果進(jìn)行分類，這種方法適用于一些查詢較為分散，且規(guī)則不明確的類別。這是最常用的方法，覆蓋面***的方法。這種方法的不足是實(shí)現(xiàn)較為復(fù)雜，數(shù)據(jù)獲取、更新困難。

張帆介紹稱，除此之外，還有一些特殊的意圖識(shí)別方法，比如微博類意圖識(shí)別，實(shí)現(xiàn)方法是對(duì)搜索結(jié)果進(jìn)行時(shí)效性判斷。

張帆認(rèn)為，意圖識(shí)別未來(lái)的發(fā)展的幾個(gè)方向是無(wú)類別概念的意圖識(shí)別，個(gè)性化意圖識(shí)別，精準(zhǔn)意圖識(shí)別以及語(yǔ)音應(yīng)用的意圖識(shí)別。（張睿）

責(zé)任編輯：市場(chǎng)部來(lái)源： TechWeb

自然語(yǔ)言

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="wi6pa"></blockquote>}

<sub id="wi6pa"><p id="wi6pa"></p></sub>