百度陳翔:人工智能+搜索引擎,提升信息獲取效率及準(zhǔn)確性
原創(chuàng)【51CTO.com原創(chuàng)稿件】2017年7月21日-22日,由51CTO主辦的以人工智能為主題的WOTI2017全球創(chuàng)新技術(shù)峰會(huì)在北京富力萬麗酒店隆重舉行。分論壇上,來自百度的資深研發(fā)工程師陳翔帶了精彩的演講。會(huì)后,記者采訪了陳翔,就人工智能在百度搜索的應(yīng)用以及人工智能的發(fā)展前景等問題進(jìn)行了深入交流。
【講師簡介】
陳翔,百度資深研發(fā)工程師,負(fù)責(zé)網(wǎng)頁搜索部相關(guān)研發(fā)工作:在搜索spider,阿拉丁等部門先后從事數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)等相關(guān)工作。
人工智能+搜索引擎
陳翔表示,其實(shí)一直以來,搜索就是一個(gè)人工智能的問題。只不過以前的人工智能更傾向于用一系列的超鏈技術(shù)、檢索技術(shù)將用戶查詢通過切詞和數(shù)據(jù)進(jìn)行綜合,然后通過查詢數(shù)據(jù)關(guān)聯(lián)得到相關(guān)的結(jié)果。但是,通過這些年的發(fā)展,搜索在人工智能或者說在機(jī)器學(xué)習(xí)、深度學(xué)習(xí)上進(jìn)行了很多的改造升級(jí)。隨著機(jī)器學(xué)習(xí)時(shí)代的來臨,百度搜索把人工搜索規(guī)則變成機(jī)器學(xué)習(xí)模型,其中應(yīng)用最多的就是深度學(xué)習(xí)技術(shù)建立模型。
那么,怎樣才能真正的用好一個(gè)深度學(xué)習(xí)模型?陳翔認(rèn)為,我們可以將深度學(xué)習(xí)看成一個(gè)黑盒子。判斷一個(gè)查詢是不是屬于某個(gè)類別的過程中,會(huì)產(chǎn)生一維特征,將它作為一個(gè)判斷的依據(jù),也就是核心特征,然后通過深度學(xué)習(xí)專家評(píng)判,以及其他的輔助平臺(tái),將特征做綜合,最終形成高級(jí)模型。
現(xiàn)在,百度搜索憑借機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語言處理、語音、圖像及用戶建模等技術(shù)日漸智能化。如今的百度搜索,不僅能針對(duì)移動(dòng)場景將搜索結(jié)果有機(jī)聚合,繼而結(jié)構(gòu)化呈現(xiàn)精準(zhǔn)的信息內(nèi)容,提升人們的信息獲取效率,而且可以通過大數(shù)據(jù)技術(shù)描繪人的個(gè)體特征,在準(zhǔn)確判斷用戶需求的基礎(chǔ)上提供個(gè)性化信息服務(wù)。
百度搜索如何準(zhǔn)確了解用戶的搜索意圖,識(shí)別用戶需求?
在無線時(shí)代和語音時(shí)代,用戶在百度上的搜索會(huì)更多使用自然語言,而很多情況下用戶的搜索帶著很明確的意圖。除去使用傳統(tǒng)的搜索技術(shù)外,我們可以針對(duì)一些重要的領(lǐng)域進(jìn)行深入的搜索意圖理解。
利用每個(gè)用戶搜索附帶的語義信息,結(jié)合大數(shù)據(jù)挖掘,百度搜索能夠理解每次查詢用戶的核心意圖,借用各領(lǐng)域的內(nèi)容開放生態(tài)建立起的知識(shí)庫系統(tǒng),精準(zhǔn)的滿足每個(gè)用戶搜索的核心意圖。比如當(dāng)用戶搜索蘋果手機(jī),百度搜索會(huì)給出圍繞這個(gè)手機(jī)相關(guān)的一系列商品,資訊,評(píng)測等結(jié)果。
基于這個(gè)目標(biāo),百度針對(duì)每個(gè)領(lǐng)域的需求特點(diǎn),基于海量的數(shù)據(jù)和知識(shí)庫信息設(shè)計(jì)了一個(gè)通用需求理解模型,針對(duì)每個(gè)領(lǐng)域通過自動(dòng)游走,模型生成的方式都快速產(chǎn)出一個(gè)理解模型,更進(jìn)一步利用深度學(xué)習(xí)挖掘特征并加以應(yīng)用大大優(yōu)化了效果。
陳翔表示:目標(biāo)在大多數(shù)類目上,需求識(shí)別基礎(chǔ)數(shù)據(jù)能夠達(dá)到95%準(zhǔn)確率,在經(jīng)過一些其他的策略的綜合優(yōu)化后,更能進(jìn)一步提升達(dá)到98%。
在更復(fù)雜的帶歧義場景下,百度搜索究竟是如何做到準(zhǔn)確了解用戶的搜索意圖? 對(duì)此,陳翔表示,這個(gè)問題其實(shí)解決起來很困難。這是搜索最終完成的一件事情,這里牽扯很多技術(shù)。
現(xiàn)在百度通過已有的技術(shù),能夠針對(duì)不同用戶同一個(gè)具有歧義的查詢進(jìn)行基于場景和用戶畫像的更深入分析和結(jié)果展示。同時(shí),通過交互等方式進(jìn)一步協(xié)助用戶判斷他的真實(shí)意圖,比如蘋果,盡管大部分查詢都是尋找iphone相關(guān)的官方信息,但百度仍然會(huì)有比較多樣性的方式,能夠讓尋找水果或者電影的人有比較簡單的獲取信息方式。
采訪***,談及人工智能應(yīng)用的市場發(fā)展前景,陳翔表示,在WOTI峰會(huì)現(xiàn)場,他發(fā)現(xiàn)深度學(xué)習(xí)會(huì)場的人非常多,是各個(gè)會(huì)場之最。深度學(xué)習(xí)時(shí)代已經(jīng)來臨,深度學(xué)習(xí)深受社會(huì)認(rèn)可,吸引了很多從業(yè)者不斷涌入。大規(guī)模的機(jī)器集群、計(jì)算能力,大量的算法的不斷改進(jìn),高精人才的持續(xù)投入,國家政策的支持等因素正在推動(dòng)深度學(xué)習(xí),推動(dòng)人工智能不斷向前發(fā)展。
對(duì)于想要踏入人工智能研究領(lǐng)域的技術(shù)人員,陳翔建議首先要懂機(jī)器學(xué)習(xí)的內(nèi)核,然后了解深度學(xué)習(xí)的能力,并學(xué)會(huì)如何充分發(fā)揮出深度學(xué)習(xí)的能力。目前互聯(lián)網(wǎng)上有很多的相關(guān)課程,可以多關(guān)注實(shí)戰(zhàn)類,多看深度解析類的讀物,只要足夠用心必將有所成。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】