自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最全面的百度NLP自然語言處理技術(shù)解析

人工智能 大數(shù)據(jù) 自然語言處理
NLP是計算機科學領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的學科。NLP由兩個主要的技術(shù)領(lǐng)域構(gòu)成:自然語言理解和自然語言生成。

[[209979]]

在AI時代,我們希望計算機能夠擁有視覺、聽覺、行動以及語言的智能,而相對于聽和看以及行動,語言是我們?nèi)祟悈^(qū)別于其他動物的最重要特征之一。語言是我們思維的載體,也因此我們對于語言的理解和處理,變得尤為重要。而在計算機領(lǐng)域,自然語言處理(NLP, Natural Language Processing)就是研究如何讓計算機理解并生成人類的語言,從而和人類平等流暢地溝通交流。自然語言處理技術(shù) 在百度已經(jīng)有悠久的歷史,早在百度誕生之時就成為搜索技術(shù)的重要組成部分,一直伴隨著百度的發(fā)展而進步。從中文分詞、詞性分析、改寫,到機器翻譯、篇章分析、語義理解、對話系統(tǒng)等等,NLP技術(shù)已成功應(yīng)用在百度各類產(chǎn)品中。

近期由百度開發(fā)者中心主辦、極客邦科技承辦的75期百度技術(shù)沙龍上,百度NLP和AI開放平臺的多位資深工程師和產(chǎn)品經(jīng)理,針對開發(fā)者如何利用百度NLP技術(shù)更好解決實際應(yīng)用問題,進行了具體分享。百度AI技術(shù)生態(tài)部高級運營顧問張揚,通過具體應(yīng)用案例,讓大家對百度NLP開放的核心技術(shù)有一個感性的認知;自然語言處理部主任架構(gòu)師孫宇,針對NLP語義計算技術(shù)的具體問題深入分析;自然語言處理部資深研發(fā)工程師何伯磊,用大量場景詳細解釋了情感分析領(lǐng)域的技術(shù)應(yīng)用;自然語言處理部資深研發(fā)工程師姜迪,詳細闡述了概率圖模型技術(shù)如何應(yīng)用;百度AI技術(shù)生態(tài)部資深產(chǎn)品經(jīng)理張晶晶,為大家現(xiàn)場指導(dǎo)百度AI開放平臺的使用方法。

NLP是什么?

NLP是計算機科學領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的學科。NLP由兩個主要的技術(shù)領(lǐng)域構(gòu)成:自然語言理解和自然語言生成。

  • 自然語言理解方向,主要目標是幫助機器更好理解人的語言,包括基礎(chǔ)的詞法、句法等語義理解,以及需求、篇章、情感層面的高層理解。
  • 自然語言生成方向,主要目標是幫助機器生成人能夠理解的語言,比如文本生成、自動文摘等。

NLP技術(shù)基于大數(shù)據(jù)、知識圖譜、機器學習、語言學等技術(shù)和資源,并可以形成機器翻譯、深度問答、對話系統(tǒng)的具體應(yīng)用系統(tǒng),進而服務(wù)于各類實際業(yè)務(wù)和產(chǎn)品。

我們?yōu)槭裁葱枰狽LP?

在演講中,為了讓大家有更直觀的感受,張揚首先舉了個生活中的例子:人們在用百度搜索一個生僻字時,不知道拼音的情況下會搜索:“4個又念什么?”,我們發(fā)現(xiàn),搜索結(jié)果一定是告訴你這個“叕”字念什么,而不是“4個又念什么”的這幾個詞表面的匹配結(jié)果,這其中已經(jīng)用到自然語言理解的能力了,它幫助搜索引擎理解用戶需要搜的是“由4個又組成的字”,而不是“4個又是什么”這幾個孤零零的詞。由此可見,NLP技術(shù)真正能夠知道你所說的話的深層語義是什么,這項技術(shù)也把人工智能推向了一個新的高度。

那么NLP究竟能能夠干什么?如何幫助業(yè)務(wù)實現(xiàn),張揚繼續(xù)介紹了百度NLP開放的幾項典型技術(shù):

情感傾向分析

針對帶有主觀描述的中文文本,可自動判斷該文本的情感極性類別并給出相應(yīng)的置信度。情感極性分為積極、消極、中性。情感傾向分析能幫助企業(yè)理解用戶消費習慣、分析熱點話題和危機輿情監(jiān)控,為企業(yè)提供有力的決策支持。 

 

評論觀點抽取

自動分析評論關(guān)注點和評論觀點,并輸出評論觀點標簽及評論觀點極性。目前支持13類產(chǎn)品用戶評論的觀點抽取,包括美食、酒店、汽車、景點等,可幫助商家進行產(chǎn)品分析,輔助用戶進行消費決策。 

 

詞義相似度計算

用于計算兩個給定詞語的語義相似度,基于自然語言中的分布假設(shè),即越是經(jīng)常共同出現(xiàn)的詞之間的相似度越高。詞義相似度是自然語言處理中的重要基礎(chǔ)技術(shù),是專名挖掘、query改寫、詞性標注等常用技術(shù)的基礎(chǔ)之一。

 

詞法分析

百度詞法分析向用戶提供分詞、詞性標注、命名實體識別三大功能。該服務(wù)能夠識別出文本串中的基本詞匯標注和詞匯的詞性,并進一步識別出命名實體,百度詞法分析的算法效果大幅領(lǐng)先已公開的主流中文詞法分析模型。

 

短文本相似度

能夠提供不同短文本之間相似度的計算,輸出的相似度是一個介于-1到1之間的實數(shù)值,越接近1則相似度越高。這個相似度值可以直接用于結(jié)果排序,也可以作為一維基礎(chǔ)特征作用于更復(fù)雜的系統(tǒng)。  

 

DNN語言模型

語言模型是通過計算給定詞組成的句子的概率,從而判斷所組成的句子是否符合客觀語言表達習慣。在機器翻譯、拼寫糾錯、語音識別、問答系統(tǒng)、詞性標注、句法分析和信息檢索等系統(tǒng)中都有廣泛應(yīng)用。 

 

詞向量表示

詞向量表示表示是通過訓(xùn)練的方法,將語言詞表中的詞映射成一個長度固定的向量。詞表中所有的詞向量構(gòu)成一個向量空間,每一個詞都是這個詞向量空間中的一個點,利用這種方法,實現(xiàn)文本的可計算。  

[[209980]] 

依存句法分析

利用句子中詞與詞之間的依存關(guān)系來表示詞語的句法結(jié)構(gòu)信息(如主謂、動賓、定中等結(jié)構(gòu)關(guān)系)

并用樹狀結(jié)構(gòu)來表示整句的的結(jié)構(gòu)(如主謂賓、定狀補等)。 

[[209981]] 

百度語義計算技術(shù)是如何實現(xiàn)的?

在各個NLP開放接口之中,語義計算是一個非?;A(chǔ)的技術(shù)。百度NLP部門的主任架構(gòu)師孫宇主要圍繞NLP語義計算整體技術(shù)框架展開分析,核心介紹了語義表示技術(shù)和語義匹配技術(shù)。百度NLP語義計算整體框架主要分三大部分(如下圖),***層依托于大數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)和用戶行為數(shù)據(jù),以及高性能集群(GPU、CPU和FPGA),打造了基于DNN和概率圖模型的語義計算引擎,通過文本輸入到語義計算引擎當中,可以得到文本的語義表示,進而基于這個語義表示,進行語義層面的計算,包括語義匹配、語義檢索、文本分類、序列生成以及序列標注。  

 

目前,百度在語義方面開放了四個技術(shù),囊括了詞匯和句子兩個層面的語義技術(shù)。詞匯層面包括了詞語義向量表示,詞義相似度計算;句子層面的包括短文本語義相似度計算和DNN語言模型。孫宇對這些技術(shù)背后的原理進行了詳細的介紹。

語義表示技術(shù)業(yè)界很早就開始研究,主要有兩種流派,一個是形式化的方法,一個是基于統(tǒng)計的方法。關(guān)于基于形式化的方法,在上世紀八十年代普林斯頓有科學家提出:基于語言學知識構(gòu)建一個詞圖,把知識通過詞與詞之間的關(guān)系構(gòu)建到這個圖里。九十年代又有人提出,將自然語言表示成一種邏輯的表達式,可以直接用于計算機計算和執(zhí)行。但這兩個技術(shù)都存在一個問題:自動化程度不高,適用性較差,因此,百度NLP主要采用基于統(tǒng)計的方法。

短文本語義相似度計算是他們重點打造、應(yīng)用廣泛的技術(shù)。其中的核心模型是利用他們2013年開始研發(fā)的SimNet語義匹配框架,在千億級別真實點擊數(shù)據(jù)訓(xùn)練得到。該框架的基礎(chǔ)匹配算法上包含兩種匹配范式,一種側(cè)重于表示層建模,另外一種則更側(cè)重于匹配層建模。這兩種模型各有優(yōu)勢,可解決不同問題。另外,針對不同應(yīng)用場景他們還擴展研發(fā)了基于字符級別匹配和多視角匹配技術(shù),這些技術(shù)都廣泛應(yīng)用于百度內(nèi)部各產(chǎn)品中。

百度自然語言處理在情感分析領(lǐng)域有哪些技術(shù)和應(yīng)用?

在演講中,何伯磊主要針對用戶日常的使用場景,分析了情感分析技術(shù)的原理和實際應(yīng)用。百度情感分析技術(shù)依托于評論大數(shù)據(jù)、深度學習、語義理解等基礎(chǔ)技術(shù),建立了一套完整情感分類與觀點挖掘的核心技術(shù)。在情感分類方面,我們研發(fā)了情感傾向性分析、情感的情緒分析,情感對象識別以及句子的主客觀的分析。在觀點挖掘方面,我們通過情感搭配知識自動構(gòu)建和觀點計算技術(shù),我們能有效的進行文本數(shù)據(jù)的觀點抽取。百度依托這些核心的技術(shù),進行用戶產(chǎn)品開發(fā)。

 

這里重點介紹兩類核心技術(shù):

情感傾向性分析

情感傾向分析任務(wù)目標是能夠判斷用戶文本是積極、消極或是中性的情感。傳統(tǒng)方法有兩類:一類利用情感詞典進行規(guī)則匹配的方法進行判斷,另外一類基于情感詞典和文本特征建立一個2分類任務(wù)的方法 。百度情感傾向性分析基于深度學習的方法,分別建立了句子級、實體級、篇章級多粒度完整的分析任務(wù)。句子級粒度上,通過基于Bi-LSTM分類方法,系統(tǒng)更好的捕捉了情感極性在前后文表達的信息,效果上相對于傳統(tǒng)的方法有了很大的提升。實體級粒度的任務(wù)概念稍有晦澀,舉個例子:《成龍對戰(zhàn)狼2的看法》一篇文章可能有多個主題,這個任務(wù)就是希望能夠把這篇文章對于“吳京”的態(tài)度分析出來。在這個任務(wù)中,我們通過建立層次化的語義表達方法,讓整個系統(tǒng)更加精準的進行分析和判斷。

評論觀點抽取的技術(shù)

評論觀點抽取目標:給定一個文本,把其中表達觀點的信息抽取出來。舉個例子,用戶的評論:“這家旅店的服務(wù)還不錯,但是房間比較簡陋”,我們目標把“服務(wù)不錯、房間簡陋”這樣的關(guān)鍵觀點信息抽取出來。評論觀點抽取技術(shù)在當前互聯(lián)網(wǎng)產(chǎn)品中應(yīng)用十分廣泛,但是召回率一直不高,百度的評論觀點抽取技術(shù)將任務(wù)從應(yīng)用需求進行細致分析拆解,通過基于情感搭配的方法,基于語義計算的方法,基于維度預(yù)測的方法,以及基于維度預(yù)測加情感極性分類的方法***的解決了應(yīng)用中各種的問題,這也是一個技術(shù)和應(yīng)用完結(jié)合經(jīng)典案例。

概率圖模型技術(shù)如何應(yīng)用?

姜迪分享的主題是《Familia可配置的主題模型框架》,F(xiàn)amilia是家族、家庭的意思。顧名思義,這個框架的特點就是涵蓋了一族具有較大的工業(yè)價值的主題模型,這樣一來,一線的工程師就有很多靈活性,可以根據(jù)具體任務(wù),來選擇適用的模型。

百度有一個貝葉斯技術(shù)體系的框架,主要分三大類:***類是主題模型,這個框架的特點就是它有一個自配置的功能;第二類是點擊模型,主要是應(yīng)用在搜索引擎的領(lǐng)域,來量化分析用戶的搜索行為以及搜索查詢和網(wǎng)頁的相關(guān)性;第三類是分類模型,包含最常見的基于貝葉斯網(wǎng)的分類器。  

 

 

主題模型框架中有十幾個主流的主題模型,其中包含LDA模型、引入了句子結(jié)構(gòu)的SentenceLDA模型、引入了監(jiān)督信號的SupervisedLDA,以及其他具有工業(yè)價值的主題模型,并且支持用戶根據(jù)具體任務(wù)設(shè)計對應(yīng)的模型。

那么,為什么要設(shè)計Familia這個主題框架?業(yè)界大部分主題模型工具只支持PLSA和LDA兩種模型,這兩種模型非常類似,它們只支持一種數(shù)據(jù)假設(shè),也就是說,我們只能用一種模型來適用不同的場景,不能支持用戶的根據(jù)具體任務(wù)自定義擴展。當用戶的數(shù)據(jù)本身和這兩個模型的假設(shè)有較大差異時,效果可想而知。另一方面,當前的主題模型工具對下游的應(yīng)用并不太友好,這些工作往往只注重模型的訓(xùn)練,忽略了模型如何在具體任務(wù)中應(yīng)用。從模型的訓(xùn)練到應(yīng)用之間有很長的距離,如何消除這個距離是我們這個工作的重點。Familia在百度的應(yīng)用場景其實非常多,包含了大家耳熟能詳?shù)陌俣人阉?、百度新聞、糯米、貼吧這些平臺,也部署到了百度自然語言的云處理平臺上,這個工具目前每天有3000萬次的響應(yīng)需求。

Familia框架是怎么在工業(yè)界場景進行應(yīng)用的?***步,數(shù)據(jù)預(yù)處理,這里可以支持多種類型的數(shù)據(jù),包括常見的網(wǎng)頁數(shù)據(jù)、新聞數(shù)據(jù)和糯米數(shù)據(jù),在內(nèi)部將數(shù)據(jù)預(yù)處理步驟和百度的分詞進行了一個深度的融合。在分詞的前和后我們還有多種多樣的過濾器,用戶可以根據(jù)自己的需求,來選擇什么信息要過濾掉,什么信息可以保留。第二步,概率圖模型配置,F(xiàn)amilia支持多種主流的已有的主題模型,同時用戶也可以自定義自己的主題模型。這個過程是通過一種數(shù)據(jù)組織抽象存儲多種圖模型的信息來實現(xiàn)的。第三步,采樣公式自動推導(dǎo),F(xiàn)amilia中的參數(shù)推導(dǎo)引擎可以自動推導(dǎo)出采樣公式,降低了主題模型應(yīng)用的數(shù)學門檻。第四步,模型的后期處理,F(xiàn)amilia進一步對訓(xùn)練好的主題模型進行優(yōu)化和壓縮操作。第五步,F(xiàn)amilia抽象了語義表示和語義匹配兩個應(yīng)用范式,用戶可以根據(jù)具體任務(wù)來使用對應(yīng)的范式。

目前Familia已經(jīng)在github上完成開源(https://github.com/baidu/familia),***期提供網(wǎng)頁、新聞、小說等多個垂類語料訓(xùn)練的工業(yè)級主題模型,并提供語義表示、語義匹配兩類應(yīng)用范式的大量應(yīng)用場景指導(dǎo)。

對開發(fā)者而言,如何更好的使用百度AI開放平臺?

張晶晶主要就自然語言使用的相關(guān)問題及整個百度AI開放平臺的使用方法進行了介紹。目前百度自然語言處理技術(shù)開放8項語言處理的基礎(chǔ)技術(shù),基于這些基礎(chǔ)的能力,百度對外開放了很多感知層和認知層的技術(shù),在上面搭建了我們一個開放平臺,在這個平臺上百度把我們所有成熟的AI技術(shù)都在這里統(tǒng)一對外開放,使大家能夠通過接口的方式,直接調(diào)用、直接使用,比如語音識別、語音合成、文字識別的各種模板、端口,人臉識別等。另外,百度也將開放個性化和定制服務(wù),主要是有詞法分析、評論觀點抽取和情感傾向分析。詞法分析的定制,可以幫助我們的行業(yè)客戶實現(xiàn)個性化需求,若有識別不了的詞匯,可以通過上傳詞表的方式,來把模型訓(xùn)練的更適合自己。  

 

 

百度AI平臺為開發(fā)過程提供了三方面的支持,首先是開發(fā)組建,其次是管理功能和配套資源。開發(fā)組建方面,每個技術(shù)領(lǐng)域里都以標準的方式提供了API和SDK,有些方向上還提供了參考代碼。有一些需要獨立去配置的模塊單獨做了配置系統(tǒng),讓開發(fā)者可以先在平臺上做好配置之后就可以直接調(diào)用。在后臺管理上,有基礎(chǔ)的應(yīng)用管理,也支持很多跟企業(yè)業(yè)務(wù)相關(guān)的個性化的配置,隨時查看調(diào)用的統(tǒng)計信息。開發(fā)者還可以在產(chǎn)品上使用百度LOGO,標識出百度AI技術(shù)。開發(fā)者如果應(yīng)用百度的AI技術(shù)解決了行業(yè)中的典型問題,百度也會擔任伯樂的角色,將其案例進行宣傳推廣。 

責任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關(guān)推薦

2021-05-17 09:00:00

自然語言人工智能技術(shù)

2022-03-29 09:58:15

自然語言處理人工智能技術(shù)

2021-05-18 07:15:37

Python

2024-04-24 11:38:46

語言模型NLP人工智能

2017-06-29 13:02:54

大數(shù)據(jù)自然語言NLP

2023-08-04 10:18:15

2020-11-12 18:57:14

摘要PythonNLP

2018-07-08 07:08:07

2021-06-01 12:46:26

人工智能機器人 機器學習

2021-06-28 10:10:42

人工智能AI自然語言

2021-05-13 07:17:13

Snownlp自然語言處理庫

2014-09-04 13:57:48

百度直達號

2024-12-06 12:19:43

自然語言NLP人工智能

2021-02-22 11:38:59

深度學習人工智能機器學習

2018-10-19 08:48:22

自然語言NLP開源工具

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2024-02-05 14:18:07

自然語言處理

2017-08-23 09:36:21

2023-08-03 09:56:47

自然語言AI

2017-10-19 17:05:58

深度學習自然語言
點贊
收藏

51CTO技術(shù)棧公眾號