自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="3fe25"><button id="3fe25"><tbody id="3fe25"></tbody></button></pre>

<abbr id="3fe25"></abbr>

<thead id="3fe25"></thead>

<abbr id="3fe25"><optgroup id="3fe25"></optgroup></abbr><thead id="3fe25"><font id="3fe25"></font></thead>

<sup id="3fe25"><tfoot id="3fe25"></tfoot></sup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

最全面的百度NLP自然語言處理技術(shù)解析

作者：田寧寧 2017-11-14 19:19:07

人工智能大數(shù)據(jù) 自然語言處理

NLP是計算機科學領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的學科。NLP由兩個主要的技術(shù)領(lǐng)域構(gòu)成：自然語言理解和自然語言生成。

[[209979]]

在AI時代，我們希望計算機能夠擁有視覺、聽覺、行動以及語言的智能，而相對于聽和看以及行動，語言是我們?nèi)祟悈^(qū)別于其他動物的最重要特征之一。語言是我們思維的載體，也因此我們對于語言的理解和處理，變得尤為重要。而在計算機領(lǐng)域，自然語言處理(NLP, Natural Language Processing)就是研究如何讓計算機理解并生成人類的語言，從而和人類平等流暢地溝通交流。自然語言處理技術(shù) 在百度已經(jīng)有悠久的歷史，早在百度誕生之時就成為搜索技術(shù)的重要組成部分，一直伴隨著百度的發(fā)展而進步。從中文分詞、詞性分析、改寫，到機器翻譯、篇章分析、語義理解、對話系統(tǒng)等等，NLP技術(shù)已成功應(yīng)用在百度各類產(chǎn)品中。

近期由百度開發(fā)者中心主辦、極客邦科技承辦的75期百度技術(shù)沙龍上，百度NLP和AI開放平臺的多位資深工程師和產(chǎn)品經(jīng)理，針對開發(fā)者如何利用百度NLP技術(shù)更好解決實際應(yīng)用問題，進行了具體分享。百度AI技術(shù)生態(tài)部高級運營顧問張揚，通過具體應(yīng)用案例，讓大家對百度NLP開放的核心技術(shù)有一個感性的認知;自然語言處理部主任架構(gòu)師孫宇，針對NLP語義計算技術(shù)的具體問題深入分析;自然語言處理部資深研發(fā)工程師何伯磊，用大量場景詳細解釋了情感分析領(lǐng)域的技術(shù)應(yīng)用;自然語言處理部資深研發(fā)工程師姜迪，詳細闡述了概率圖模型技術(shù)如何應(yīng)用；百度AI技術(shù)生態(tài)部資深產(chǎn)品經(jīng)理張晶晶，為大家現(xiàn)場指導(dǎo)百度AI開放平臺的使用方法。

NLP是什么?

NLP是計算機科學領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的學科。NLP由兩個主要的技術(shù)領(lǐng)域構(gòu)成：自然語言理解和自然語言生成。

自然語言理解方向，主要目標是幫助機器更好理解人的語言，包括基礎(chǔ)的詞法、句法等語義理解，以及需求、篇章、情感層面的高層理解。
自然語言生成方向，主要目標是幫助機器生成人能夠理解的語言，比如文本生成、自動文摘等。

NLP技術(shù)基于大數(shù)據(jù)、知識圖譜、機器學習、語言學等技術(shù)和資源，并可以形成機器翻譯、深度問答、對話系統(tǒng)的具體應(yīng)用系統(tǒng)，進而服務(wù)于各類實際業(yè)務(wù)和產(chǎn)品。

我們?yōu)槭裁葱枰狽LP?

在演講中，為了讓大家有更直觀的感受，張揚首先舉了個生活中的例子：人們在用百度搜索一個生僻字時，不知道拼音的情況下會搜索：“4個又念什么?”，我們發(fā)現(xiàn)，搜索結(jié)果一定是告訴你這個“叕”字念什么，而不是“4個又念什么”的這幾個詞表面的匹配結(jié)果，這其中已經(jīng)用到自然語言理解的能力了，它幫助搜索引擎理解用戶需要搜的是“由4個又組成的字”，而不是“4個又是什么”這幾個孤零零的詞。由此可見，NLP技術(shù)真正能夠知道你所說的話的深層語義是什么，這項技術(shù)也把人工智能推向了一個新的高度。

那么NLP究竟能能夠干什么?如何幫助業(yè)務(wù)實現(xiàn)，張揚繼續(xù)介紹了百度NLP開放的幾項典型技術(shù)：

情感傾向分析

針對帶有主觀描述的中文文本，可自動判斷該文本的情感極性類別并給出相應(yīng)的置信度。情感極性分為積極、消極、中性。情感傾向分析能幫助企業(yè)理解用戶消費習慣、分析熱點話題和危機輿情監(jiān)控，為企業(yè)提供有力的決策支持。

評論觀點抽取

自動分析評論關(guān)注點和評論觀點，并輸出評論觀點標簽及評論觀點極性。目前支持13類產(chǎn)品用戶評論的觀點抽取，包括美食、酒店、汽車、景點等，可幫助商家進行產(chǎn)品分析，輔助用戶進行消費決策。

詞義相似度計算

用于計算兩個給定詞語的語義相似度，基于自然語言中的分布假設(shè)，即越是經(jīng)常共同出現(xiàn)的詞之間的相似度越高。詞義相似度是自然語言處理中的重要基礎(chǔ)技術(shù)，是專名挖掘、query改寫、詞性標注等常用技術(shù)的基礎(chǔ)之一。

詞法分析

百度詞法分析向用戶提供分詞、詞性標注、命名實體識別三大功能。該服務(wù)能夠識別出文本串中的基本詞匯標注和詞匯的詞性，并進一步識別出命名實體，百度詞法分析的算法效果大幅領(lǐng)先已公開的主流中文詞法分析模型。

短文本相似度

能夠提供不同短文本之間相似度的計算，輸出的相似度是一個介于-1到1之間的實數(shù)值，越接近1則相似度越高。這個相似度值可以直接用于結(jié)果排序，也可以作為一維基礎(chǔ)特征作用于更復(fù)雜的系統(tǒng)。

DNN語言模型

語言模型是通過計算給定詞組成的句子的概率，從而判斷所組成的句子是否符合客觀語言表達習慣。在機器翻譯、拼寫糾錯、語音識別、問答系統(tǒng)、詞性標注、句法分析和信息檢索等系統(tǒng)中都有廣泛應(yīng)用。

詞向量表示

詞向量表示表示是通過訓(xùn)練的方法，將語言詞表中的詞映射成一個長度固定的向量。詞表中所有的詞向量構(gòu)成一個向量空間，每一個詞都是這個詞向量空間中的一個點，利用這種方法，實現(xiàn)文本的可計算。

依存句法分析

利用句子中詞與詞之間的依存關(guān)系來表示詞語的句法結(jié)構(gòu)信息(如主謂、動賓、定中等結(jié)構(gòu)關(guān)系)

并用樹狀結(jié)構(gòu)來表示整句的的結(jié)構(gòu)(如主謂賓、定狀補等)。

百度語義計算技術(shù)是如何實現(xiàn)的?

在各個NLP開放接口之中，語義計算是一個非?；A(chǔ)的技術(shù)。百度NLP部門的主任架構(gòu)師孫宇主要圍繞NLP語義計算整體技術(shù)框架展開分析，核心介紹了語義表示技術(shù)和語義匹配技術(shù)。百度NLP語義計算整體框架主要分三大部分(如下圖)，***層依托于大數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)和用戶行為數(shù)據(jù)，以及高性能集群(GPU、CPU和FPGA)，打造了基于DNN和概率圖模型的語義計算引擎，通過文本輸入到語義計算引擎當中，可以得到文本的語義表示，進而基于這個語義表示，進行語義層面的計算，包括語義匹配、語義檢索、文本分類、序列生成以及序列標注。

目前，百度在語義方面開放了四個技術(shù)，囊括了詞匯和句子兩個層面的語義技術(shù)。詞匯層面包括了詞語義向量表示，詞義相似度計算;句子層面的包括短文本語義相似度計算和DNN語言模型。孫宇對這些技術(shù)背后的原理進行了詳細的介紹。

語義表示技術(shù)業(yè)界很早就開始研究，主要有兩種流派，一個是形式化的方法，一個是基于統(tǒng)計的方法。關(guān)于基于形式化的方法，在上世紀八十年代普林斯頓有科學家提出：基于語言學知識構(gòu)建一個詞圖，把知識通過詞與詞之間的關(guān)系構(gòu)建到這個圖里。九十年代又有人提出，將自然語言表示成一種邏輯的表達式，可以直接用于計算機計算和執(zhí)行。但這兩個技術(shù)都存在一個問題：自動化程度不高，適用性較差，因此，百度NLP主要采用基于統(tǒng)計的方法。

短文本語義相似度計算是他們重點打造、應(yīng)用廣泛的技術(shù)。其中的核心模型是利用他們2013年開始研發(fā)的SimNet語義匹配框架，在千億級別真實點擊數(shù)據(jù)訓(xùn)練得到。該框架的基礎(chǔ)匹配算法上包含兩種匹配范式，一種側(cè)重于表示層建模，另外一種則更側(cè)重于匹配層建模。這兩種模型各有優(yōu)勢，可解決不同問題。另外，針對不同應(yīng)用場景他們還擴展研發(fā)了基于字符級別匹配和多視角匹配技術(shù)，這些技術(shù)都廣泛應(yīng)用于百度內(nèi)部各產(chǎn)品中。

百度自然語言處理在情感分析領(lǐng)域有哪些技術(shù)和應(yīng)用?

在演講中，何伯磊主要針對用戶日常的使用場景，分析了情感分析技術(shù)的原理和實際應(yīng)用。百度情感分析技術(shù)依托于評論大數(shù)據(jù)、深度學習、語義理解等基礎(chǔ)技術(shù)，建立了一套完整情感分類與觀點挖掘的核心技術(shù)。在情感分類方面，我們研發(fā)了情感傾向性分析、情感的情緒分析，情感對象識別以及句子的主客觀的分析。在觀點挖掘方面，我們通過情感搭配知識自動構(gòu)建和觀點計算技術(shù)，我們能有效的進行文本數(shù)據(jù)的觀點抽取。百度依托這些核心的技術(shù)，進行用戶產(chǎn)品開發(fā)。

這里重點介紹兩類核心技術(shù)：

情感傾向性分析

情感傾向分析任務(wù)目標是能夠判斷用戶文本是積極、消極或是中性的情感。傳統(tǒng)方法有兩類：一類利用情感詞典進行規(guī)則匹配的方法進行判斷，另外一類基于情感詞典和文本特征建立一個2分類任務(wù)的方法。百度情感傾向性分析基于深度學習的方法，分別建立了句子級、實體級、篇章級多粒度完整的分析任務(wù)。句子級粒度上，通過基于Bi-LSTM分類方法，系統(tǒng)更好的捕捉了情感極性在前后文表達的信息，效果上相對于傳統(tǒng)的方法有了很大的提升。實體級粒度的任務(wù)概念稍有晦澀，舉個例子：《成龍對戰(zhàn)狼2的看法》一篇文章可能有多個主題，這個任務(wù)就是希望能夠把這篇文章對于“吳京”的態(tài)度分析出來。在這個任務(wù)中，我們通過建立層次化的語義表達方法，讓整個系統(tǒng)更加精準的進行分析和判斷。

評論觀點抽取的技術(shù)

評論觀點抽取目標：給定一個文本，把其中表達觀點的信息抽取出來。舉個例子，用戶的評論：“這家旅店的服務(wù)還不錯，但是房間比較簡陋”，我們目標把“服務(wù)不錯、房間簡陋”這樣的關(guān)鍵觀點信息抽取出來。評論觀點抽取技術(shù)在當前互聯(lián)網(wǎng)產(chǎn)品中應(yīng)用十分廣泛，但是召回率一直不高，百度的評論觀點抽取技術(shù)將任務(wù)從應(yīng)用需求進行細致分析拆解，通過基于情感搭配的方法，基于語義計算的方法，基于維度預(yù)測的方法，以及基于維度預(yù)測加情感極性分類的方法***的解決了應(yīng)用中各種的問題，這也是一個技術(shù)和應(yīng)用完結(jié)合經(jīng)典案例。

概率圖模型技術(shù)如何應(yīng)用?

姜迪分享的主題是《Familia可配置的主題模型框架》，F(xiàn)amilia是家族、家庭的意思。顧名思義，這個框架的特點就是涵蓋了一族具有較大的工業(yè)價值的主題模型，這樣一來，一線的工程師就有很多靈活性，可以根據(jù)具體任務(wù)，來選擇適用的模型。

百度有一個貝葉斯技術(shù)體系的框架，主要分三大類：***類是主題模型，這個框架的特點就是它有一個自配置的功能;第二類是點擊模型，主要是應(yīng)用在搜索引擎的領(lǐng)域，來量化分析用戶的搜索行為以及搜索查詢和網(wǎng)頁的相關(guān)性;第三類是分類模型，包含最常見的基于貝葉斯網(wǎng)的分類器。

主題模型框架中有十幾個主流的主題模型，其中包含LDA模型、引入了句子結(jié)構(gòu)的SentenceLDA模型、引入了監(jiān)督信號的SupervisedLDA，以及其他具有工業(yè)價值的主題模型，并且支持用戶根據(jù)具體任務(wù)設(shè)計對應(yīng)的模型。

那么，為什么要設(shè)計Familia這個主題框架?業(yè)界大部分主題模型工具只支持PLSA和LDA兩種模型，這兩種模型非常類似，它們只支持一種數(shù)據(jù)假設(shè)，也就是說，我們只能用一種模型來適用不同的場景，不能支持用戶的根據(jù)具體任務(wù)自定義擴展。當用戶的數(shù)據(jù)本身和這兩個模型的假設(shè)有較大差異時，效果可想而知。另一方面，當前的主題模型工具對下游的應(yīng)用并不太友好，這些工作往往只注重模型的訓(xùn)練，忽略了模型如何在具體任務(wù)中應(yīng)用。從模型的訓(xùn)練到應(yīng)用之間有很長的距離，如何消除這個距離是我們這個工作的重點。Familia在百度的應(yīng)用場景其實非常多，包含了大家耳熟能詳?shù)陌俣人阉?、百度新聞、糯米、貼吧這些平臺，也部署到了百度自然語言的云處理平臺上，這個工具目前每天有3000萬次的響應(yīng)需求。

Familia框架是怎么在工業(yè)界場景進行應(yīng)用的?***步，數(shù)據(jù)預(yù)處理，這里可以支持多種類型的數(shù)據(jù)，包括常見的網(wǎng)頁數(shù)據(jù)、新聞數(shù)據(jù)和糯米數(shù)據(jù)，在內(nèi)部將數(shù)據(jù)預(yù)處理步驟和百度的分詞進行了一個深度的融合。在分詞的前和后我們還有多種多樣的過濾器，用戶可以根據(jù)自己的需求，來選擇什么信息要過濾掉，什么信息可以保留。第二步，概率圖模型配置，F(xiàn)amilia支持多種主流的已有的主題模型，同時用戶也可以自定義自己的主題模型。這個過程是通過一種數(shù)據(jù)組織抽象存儲多種圖模型的信息來實現(xiàn)的。第三步，采樣公式自動推導(dǎo)，F(xiàn)amilia中的參數(shù)推導(dǎo)引擎可以自動推導(dǎo)出采樣公式，降低了主題模型應(yīng)用的數(shù)學門檻。第四步，模型的后期處理，F(xiàn)amilia進一步對訓(xùn)練好的主題模型進行優(yōu)化和壓縮操作。第五步，F(xiàn)amilia抽象了語義表示和語義匹配兩個應(yīng)用范式，用戶可以根據(jù)具體任務(wù)來使用對應(yīng)的范式。

目前Familia已經(jīng)在github上完成開源(https://github.com/baidu/familia)，***期提供網(wǎng)頁、新聞、小說等多個垂類語料訓(xùn)練的工業(yè)級主題模型，并提供語義表示、語義匹配兩類應(yīng)用范式的大量應(yīng)用場景指導(dǎo)。

對開發(fā)者而言，如何更好的使用百度AI開放平臺?

張晶晶主要就自然語言使用的相關(guān)問題及整個百度AI開放平臺的使用方法進行了介紹。目前百度自然語言處理技術(shù)開放8項語言處理的基礎(chǔ)技術(shù)，基于這些基礎(chǔ)的能力，百度對外開放了很多感知層和認知層的技術(shù)，在上面搭建了我們一個開放平臺，在這個平臺上百度把我們所有成熟的AI技術(shù)都在這里統(tǒng)一對外開放，使大家能夠通過接口的方式，直接調(diào)用、直接使用，比如語音識別、語音合成、文字識別的各種模板、端口，人臉識別等。另外，百度也將開放個性化和定制服務(wù)，主要是有詞法分析、評論觀點抽取和情感傾向分析。詞法分析的定制，可以幫助我們的行業(yè)客戶實現(xiàn)個性化需求，若有識別不了的詞匯，可以通過上傳詞表的方式，來把模型訓(xùn)練的更適合自己。

百度AI平臺為開發(fā)過程提供了三方面的支持，首先是開發(fā)組建，其次是管理功能和配套資源。開發(fā)組建方面，每個技術(shù)領(lǐng)域里都以標準的方式提供了API和SDK，有些方向上還提供了參考代碼。有一些需要獨立去配置的模塊單獨做了配置系統(tǒng)，讓開發(fā)者可以先在平臺上做好配置之后就可以直接調(diào)用。在后臺管理上，有基礎(chǔ)的應(yīng)用管理，也支持很多跟企業(yè)業(yè)務(wù)相關(guān)的個性化的配置，隨時查看調(diào)用的統(tǒng)計信息。開發(fā)者還可以在產(chǎn)品上使用百度LOGO，標識出百度AI技術(shù)。開發(fā)者如果應(yīng)用百度的AI技術(shù)解決了行業(yè)中的典型問題，百度也會擔任伯樂的角色，將其案例進行宣傳推廣。

責任編輯：龐桂玉來源： 36大數(shù)據(jù)

人工智能自然語言處理百度

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<samp id="62xb6"></samp>

<abbr id="62xb6"><button id="62xb6"></button></abbr><tfoot id="62xb6"><source id="62xb6"></source></tfoot>