自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

【WOT2018】四位重磅大咖解析NLP在企業(yè)業(yè)務中的深度應用

原創(chuàng)
人工智能 新聞
WOT2018全球人工智能技術峰會《文本分析與NLP》分論壇,宜信技術研發(fā)中心數據科學家井玉欣、新浪微博研發(fā)中心機器學習研發(fā)部NLP負責人胥望軍、貝殼找房資深算法專家陳開江和知乎AI團隊技術負責人黃波,四位專家圍繞文本分析與自然語言處理技術,就人機對話、問答系統等在企業(yè)中的應用展開論述。

【51CTO.com原創(chuàng)稿件】2018年11月30日-12月1日,WOT2018全球人工智能技術峰會在北京•粵財JW萬豪酒店盛大召開。60+國內外人工智能一線精英大咖與千余名業(yè)界人士齊聚現場,分享人工智能的平臺工具、算法模型、語音視覺等技術內容,探討人工智能如何賦予行業(yè)新的活力。兩天會議涵蓋通用技術、應用領域、行業(yè)賦能三大章節(jié),開設13大技術專場,如機器學習、數據處理、AI平臺與工具、推薦搜索、業(yè)務實踐、優(yōu)化硬件等,堪稱人工智能技術盛會。

在《文本分析與NLP》分論壇,宜信技術研發(fā)中心數據科學家井玉欣、新浪微博研發(fā)中心機器學習研發(fā)部NLP負責人胥望軍、貝殼找房資深算法專家陳開江和知乎AI團隊技術負責人黃波,四位專家圍繞文本分析與自然語言處理技術,就人機對話、問答系統等在企業(yè)中的應用展開論述。

NLP技術在宜信業(yè)務中的技術實踐

自然語言數據作為重要的溝通形式以及信息載體,廣泛存在于企業(yè)日常業(yè)務的各個環(huán)節(jié)之中,合理的NLP技術可以克服自然語言非形式化、不確定性等問題,發(fā)掘并捕獲其中蘊含的有價值信息,進而用于業(yè)務咨詢、決策支持、精準營銷等方面,是企業(yè)重要的AI能力之一。

宜信技術研發(fā)中心數據科學家井玉欣在《NLP技術在宜信業(yè)務中的技術實踐》的演講中,圍繞基于機器學習的NLP技術在宜信內部各業(yè)務領域的應用實踐展開,分享了相關的實踐經驗,包括智能機器人在業(yè)務支持、客戶服務中的探索,基于文本語義分析的用戶畫像構建,以及NLP算法服務平臺化實施思路等。

宜信于2006年在北京成立,是一家從事普惠金融以及財富管理的金融科技企業(yè),目前AI技術已廣泛應用于宜信的各大產品線,這些AI產品背后都有自然語言處理技術的縮影。例如,在智能交易中有很多投研方面的報告,需要報告理解方面的NLP技術。

自然語言數據存在數據非結構化、語言歧義性、語法不規(guī)則、未知語言現象四大缺陷,但也有數據量豐富、信息表述多樣性、信息完整性、符合用戶習慣四大優(yōu)點。結合宜信自身的金融數據也有四大特點:詞匯專業(yè)性強、數據來源廣泛、數據形式多樣、數據量大但不均衡。

宜信技術研發(fā)中心數據科學家井玉欣

由于結構化數據可被挖掘的潛力有限,企業(yè)業(yè)務越來越關注那些大量的非結構化數據蘊含的高價值信息,如客戶信息、產品數據、輿論傾向和策略反饋等。此外,自然語言理解和自然語言生成給人們帶來了一種新的會話交互方式,且更加自然、高效,更吸引人,也更符合用戶的習慣,這也是NLP技術被廣泛應用于各個領域的重要原因。自然語言的特點決定了NLP技術的必要性,NLP承擔了各業(yè)務領域內自然語言數據的分類、提取、轉換、生成任務,是業(yè)務領域內重要、基礎的技術服務之一。

現代企業(yè)對智能聊天機器人有著非常廣泛的業(yè)務需求。以信貸業(yè)務咨詢機器人為例,業(yè)務的核心是基于檢索的問答模型,核心問題是文本語義的相似度問題,涉及語義相似度函數和文本表征函數。對于用戶的問題,要在數據庫中找出最相似的答案反饋給用戶,可以通過構建Dual LSTM神經網絡或是拆分成子問題這兩種方法來解決。隨后,井玉欣介紹了DSSM模型與遷移學習,QA匹配模型、基于NN的匹配模型、知識庫檢索,模糊 Query 造成的精度下降的解決辦法,以及基于文本語義分析的用戶畫像構建思路等。

自然語言處理在新浪微博中的應用

微博作為國內超大的社交媒體平臺,用戶每天更新的微博內容達上億條。由于微博內容的文本短且表達形式豐富,為內容理解帶來了較大難度。新浪微博研發(fā)中心機器學習研發(fā)部NLP負責人胥望軍在主題為《自然語言處理(NLP)在微博中的應用》的分享中,介紹了微博內容理解的場景、難點、解決思路和算法,以及在微博興趣推薦場景下的應用。

微博的推薦場景包括內容推薦和用戶推薦兩大類,有基于關注關系推薦內容的關注流、基于興趣推薦內容的熱門流、按頻道領域推薦內容的頻道流,以及基于用戶興趣和關注關系的個性化推送等等。微博的內容推薦框架由物料庫、召回(常規(guī)/實時)、粗排序、精排序、業(yè)務策略及展示、行為收集,以及離線訓練模型、常規(guī)模型和實時模型等構成。

新浪微博研發(fā)中心機器學習研發(fā)部NLP負責人胥望軍

微博構建了全領域的知識圖譜和標簽體系,其中一級標簽覆蓋五十余個領域,二級標簽一千余個,三級標簽高達一千余萬個,標簽體系的建立在推薦場景中發(fā)揮著重要作用。微博內容通過標簽分類解決內容的可解釋性,通過主題模型解決內容的匹配問題。此外,新浪微博基于內容理解構建了用戶畫像,包括用戶的興趣偏好,性別、年齡等自然屬性,以及職業(yè)、公司、學歷等社會屬性。

隨后,胥望軍主要介紹了BERT(Bidirectional Encoder Representations from Transformers)和多模態(tài)融合兩種算法,BERT用于結合語義本身的信息,表達時間維度;多模態(tài)融合用于結合微博富媒體內容信息進行分類,表達空間維度。此外,新浪微博在短文本分類方面也進行了較多嘗試,從最初的樸素貝葉斯到深度模型,不斷進行對比、更新,進行模型演進。

BERT模型幾乎能應用于所有的NLP任務。BERT預訓練最關鍵的兩點:一是特征抽取器采用Transformer;第二點是預訓練時采用雙向語言模型。Transformer特征提取器的效果高,能進行分布式處理,采用self attention機制能夠捕獲遠距離特征信息。

微博具有豐富的表達方式,如文字、圖片、視頻、語音,甚至是用戶互動等,都是用來理解內容的各種模態(tài)。因此,除了在純文本方面嘗試前沿的算法,新浪微博也在內容的多模態(tài)方面進行嘗試,例如文本和圖片的雙端attention融合方式等。

對話系統在房產行業(yè)的應用

對話系統是NLP領域常見的技術方向,也是未完全解決的技術難點。近年來,深度學習的興盛把對話系統帶到了一個新高度。貝殼找房作為行業(yè)超大規(guī)模的居住服務平臺,一直在對話系統方面進行長期的探索嘗試。常規(guī)的對話系統試圖取代傳統的人工服務,而貝殼找房的對話系統有自己的創(chuàng)新,人工智能和人工知識可以共同學習演化,借助深度學習和傳統NLP技術為行業(yè)賦能。貝殼找房資深算法專家陳開江分享了貝殼找房在語義理解、對話系統、語音助手和VR看房協同工作方面的相關技術和產品實踐。

貝殼找房資深算法專家陳開江

對話系統的難點包含五個方面:一是很難用單一模型解決問題;二是很難獲得高質量、低成本的大量標注數據;三是很多人人皆知的常識需要機器去理解;四是對話系統的溝通很難進行量化、標準的評測;五是對話系統很難通用,一個行業(yè)、一個場景做到很好的效果,也很難復制到其他行業(yè)或場景中直接使用。

貝殼找房作為居住服務平臺,在對話系統上有著長期的探索嘗試。貝殼找房利用深度學習和傳統NLP技術,為眾多經紀人賦能,使其作業(yè)效率提升3到5倍。房產行業(yè)都是高額消費,如果直接人機對話很難建立信任,因此貝殼找房通過用戶端的貝殼APP與經紀人端的Link APP進行直接對話,對話系統在對話過程中是一個潛在角色,系統將對話發(fā)送給經紀人,經紀人可以對文本進行修飾,也可直接發(fā)送給用戶。

貝殼找房的對話系統在技術上分為三個階段:一階段不斷獲取對話數據,第二階段是MVP(Model-View-Presenter ),第三階段是反復迭代。從對話數據中得到初級知識,首先進行數據的預處理,抽取出Q&A問答的對話體系,對話體系包括流程、意圖和槽位(類似函數的參數)三大要素。隨后,陳開江重點介紹了單意圖單輪會話和多意圖多輪對話的主要流程、算法和實驗結果等。他透露,目前貝殼找房正在將一些科技元素融入房產行業(yè),例如通過4D看房,提升了經紀人和用戶的看房效率,通過AI平臺將貝殼的能力開放給內部,服務更多場景,通過行業(yè)數倉加房產知識圖譜的建設形成行業(yè)全景圖,助力4D看房及AI平臺的建設。

知乎:應用AI打造智能社區(qū)

作為國內知名知識分享平臺,知乎已擁有 2 億注冊用戶,回答數超過 1 億,目前 AI 已經全面參與知乎的各個環(huán)節(jié),大幅提升了社區(qū)的運營效率。知乎AI團隊技術負責人黃波帶來了《知乎AI技術及應用》的精彩演講,分享了知乎在知識圖譜、內容理解、用戶分析方面的具體技術及相關應用。

知識圖譜分兩步;一是知識圖譜的構建,包括將結構化與半結構的知識融合,通過數據挖掘知識之間的關系,進行知識表示與建模;第二步是知識圖譜的應用,包括語義搜索和推薦,問答和對話系統,大數據分析與決策三部分。

知乎AI團隊技術負責人黃波

知識圖譜的構建與具體業(yè)務場景強相關,目前,知乎構建了以話題、實體為核心的百萬級節(jié)點,構建了話題相關性圖譜、話題上下位圖譜、話題與實體的關系圖譜等。從長遠來看,知乎會將用戶作為知識圖譜的一個節(jié)點,和話題、實體等語義節(jié)點建立連接關系。

知識圖譜的知識表示分為離散表示和連續(xù)表示兩種。離散表示的優(yōu)點是可解釋性強,表示能力強,能處理復雜知識結構,缺點是稀疏、擴展性差;連續(xù)表示的優(yōu)點是低維稠密、模型友好,缺點是可解釋性差,表示能力弱,復雜知識結構支持較差。因此,在選擇知識表示方法時需要根據各自優(yōu)缺點進行慎重選擇。

目前,知乎內容平臺有25 萬個話題,2700 萬個問題,1.2 億個回答。知乎內容分析包括語義標簽、質量標簽和時效標簽三類。

多種粒度語義標簽要求:

  • 一二級領域:粒度粗,盡量完備正交的分類體系,保證任一問題或文章能分到某個類別;
  • 話題:高準確度,同一個問題或文章可打上多個話題;
  • 實體/關鍵詞:高準確度,優(yōu)先保證熱門實體/關鍵詞被召回;
  • 語義聚類:語義類簇粒度均,源于數據。

話題匹配方面,由于端到端深度學習模型的效果較差,因此知乎采用基于召回+排序的多策略融合,準確率高達93%,召回率達83%。其中,召回策略包括AC多模匹配、基于點互信息(PMI)兩趟對齊算法和基于知識圖譜三種召回方式。多策略融合排序模型,分別為基于深度學習模型的語義相似度得分,與候選話題集合的相似度得分,基于話題圖譜的權重得分,和基于規(guī)則的權重得分四種。

在用戶分析方面,分為用戶基礎畫像,用戶興趣畫像,和用戶社交表示與挖掘三類。其中,用戶表示與聚類使用用戶搜索內容、關注、收藏、點贊、閱讀的回答、文章等對應的話題,作為用戶的特征,整理成 one-hot 的向量;使用變分自編碼器(Variational Auto-Encoder,VAE) 重建用戶話題向量,將 encoder 層輸出映射為概率分布,并作為用戶的 Embedding 表示。

以上內容是51CTO記者根據WOT2018全球人工智能技術峰會的《文本分析與NLP》分論壇演講內容整理,更多關于WOT的內容請關注51cto.com。

【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

 

責任編輯:查士加 來源: 51CTO
相關推薦

2018-11-30 17:22:52

人工智能AI機器學習

2018-06-13 10:36:49

ARWOT

2019-01-03 14:23:48

人工智能人機智能業(yè)務創(chuàng)新

2018-06-25 16:14:28

AI人工智能貝殼找房

2018-12-17 19:13:43

WOT人工智能數據處理

2018-12-24 10:56:42

人工智能硬件WOT

2018-03-23 17:35:21

WOT2018董明鑫Docker

2018-12-24 14:58:02

人工智能AI視覺搜索

2018-06-25 14:52:26

TiDB數據庫CTO

2019-10-14 16:01:47

運營商周邊業(yè)務5G

2018-06-19 08:12:55

2018-12-24 11:13:32

WOT2018AI人工智能

2018-12-26 10:08:23

WOT AI峰會

2018-12-01 16:11:34

WOT2018人工智能51CTO

2015-10-28 15:01:00

戴爾

2018-12-18 11:17:14

人工智能WOT2018AI工具

2015-11-05 18:20:35

戴爾企業(yè)客戶峰會

2018-05-16 15:57:40

OpenStack對象存儲WOT

2018-03-20 09:44:50

WOT區(qū)塊鏈

2018-11-20 14:48:30

WOT人工智能
點贊
收藏

51CTO技術棧公眾號