自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟論文概述神經(jīng)信息檢索技術(shù):如何將神經(jīng)網(wǎng)絡(luò)用于信息檢索?

開(kāi)發(fā) 開(kāi)發(fā)工具
本文以信息檢索基本概念介紹和學(xué)習(xí)文本向量表征的不同神經(jīng)、非神經(jīng)進(jìn)路開(kāi)始,之后介紹使用預(yù)訓(xùn)練的沒(méi)有端到端學(xué)習(xí)信息檢索任務(wù)的神經(jīng)項(xiàng)嵌入(term embedding)的淺層神經(jīng)信息檢索方法、深度神經(jīng)網(wǎng)絡(luò)以及深度架構(gòu)。

近日,微軟研究人員 Bhaskar Mitra 和 Nick Craswell 在 arXiv 上提交了一篇名為《用于信息檢索的神經(jīng)模型(Neural Models for Information Retrieval)》論文,論文概述了神經(jīng)信息檢索模型背后的基本概念和直觀內(nèi)容,并且將其置于傳統(tǒng)檢索模型的語(yǔ)境之中。論文的目的在于為神經(jīng)模型與信息檢索之間架起橋梁,互通有無(wú),加快神經(jīng)信息檢索技術(shù)的發(fā)展。機(jī)器之心對(duì)該論文進(jìn)行了編譯,論文鏈接見(jiàn)文末。

信息檢索(information retrieval,IR)的神經(jīng)排序模型使用淺層或深層神經(jīng)網(wǎng)絡(luò)來(lái)根據(jù)查詢(query)對(duì)搜索結(jié)果進(jìn)行排序。傳統(tǒng)的學(xué)習(xí)排序的模型是在手工標(biāo)注的信息檢索特征上使用機(jī)器學(xué)習(xí)技術(shù),與之相反,神經(jīng)模型可以從原始文本材料(這些材料可以彌合查詢與文檔詞匯之間的差距。)中學(xué)習(xí)語(yǔ)言的表征。不同于經(jīng)典的信息檢索模型,在可被部署之前,這些新型機(jī)器學(xué)習(xí)系統(tǒng)需要大量的訓(xùn)練數(shù)據(jù)。該教程介紹了神經(jīng)信息檢索模型背后的基本概念和直觀內(nèi)容,并且該教程也會(huì)把它們置于傳統(tǒng)檢索模型的語(yǔ)境之中。我們以信息檢索基本概念介紹和學(xué)習(xí)文本向量表征的不同神經(jīng)、非神經(jīng)進(jìn)路開(kāi)始。然后,我們回顧一下使用預(yù)訓(xùn)練的沒(méi)有端到端學(xué)習(xí)信息檢索任務(wù)的神經(jīng)項(xiàng)嵌入(term embedding)的淺層神經(jīng)信息檢索方法。之后我們會(huì)介紹深度神經(jīng)網(wǎng)絡(luò),討論熱門的深度架構(gòu)。***,我們會(huì)回顧目前用于信息檢索的 DNN 模型,并以討論的形式對(duì)神經(jīng)信息檢索未來(lái)可能的發(fā)展方向進(jìn)行總結(jié)。

Neural Models for Information Retrieval

近十年來(lái),計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和機(jī)器翻譯的性能獲得了超乎想象的提升,研究領(lǐng)域和現(xiàn)實(shí)世界應(yīng)用領(lǐng)域見(jiàn)證了這一切。這些突破大部分由近期在神經(jīng)網(wǎng)絡(luò)模型方面的進(jìn)步所推動(dòng),這些神經(jīng)網(wǎng)絡(luò)通常有多個(gè)隱藏層,我們稱之為深度架構(gòu)。諸如會(huì)話代理(agent)和玩游戲達(dá)到人類水平的代理這樣令人激動(dòng)的全新應(yīng)用也相繼出現(xiàn)。現(xiàn)在,信息檢索社區(qū)也開(kāi)始應(yīng)用這些神經(jīng)方法,這將為提升***進(jìn)技術(shù)或者甚至在其它領(lǐng)域?qū)崿F(xiàn)突破帶來(lái)可能。

信息檢索的方式有很多。使用者可以文本查詢的方式表達(dá)其信息需求,這里所謂的文本查詢方式可指鍵盤鍵入、選擇一個(gè)查詢建議、聲音識(shí)別或者圖像形式查詢,甚至在有些情況下需求不太清楚也可以。檢索可以涉及對(duì)現(xiàn)存內(nèi)容的部分進(jìn)行排序,這些部分可以是文檔或簡(jiǎn)短的文本答案,也可以是通過(guò)組合新的答案來(lái)具體化檢索信息。信息需求和檢索結(jié)果或許都使用了同樣的方式(比如,檢索文本文檔以響應(yīng)關(guān)鍵詞查詢),亦或也有不同方式(比如,使用文本查詢進(jìn)行圖像搜索)。檢索系統(tǒng)可能會(huì)考慮用戶歷史、物理定位、信息的時(shí)間變化或者排序結(jié)果時(shí)的其它語(yǔ)境因素。這些因素也可能幫助用戶形成其的意圖(比如,通過(guò)自動(dòng)完成的查詢或者查詢建議)并且/或者可以幫助用戶提煉出更易于檢查的簡(jiǎn)練的結(jié)果總結(jié)(summaries of result)。

神經(jīng)信息檢索指的是將淺層或深層神經(jīng)網(wǎng)絡(luò)應(yīng)用于這些檢索任務(wù)之上。該教程目的在于介紹神經(jīng)模型,其回應(yīng)查詢以進(jìn)行文檔排序,這是一項(xiàng)重要的信息檢索任務(wù)。一條搜索查詢通常可能會(huì)包含一些詞語(yǔ),然而文檔的長(zhǎng)度會(huì)根據(jù)特定的場(chǎng)景而改變,從幾個(gè)詞到成百上千個(gè)句子甚至更長(zhǎng)。信息檢索的神經(jīng)模型使用文本的向量表征,通常這包含了大量需要調(diào)整的參數(shù)。帶有大型參數(shù)集的機(jī)器學(xué)習(xí)模型通常需要大量的訓(xùn)練數(shù)據(jù)。不同于傳統(tǒng)的學(xué)習(xí)排序的方法(這些方法在一個(gè)手工標(biāo)注的特征集上訓(xùn)練機(jī)器學(xué)習(xí)模型),信息檢索的神經(jīng)模型通??梢詫⒉樵?query)和文檔(document)的原始文本(raw text)作為輸入。學(xué)習(xí)文本的恰當(dāng)表征也需要大量數(shù)據(jù)訓(xùn)練。因此,不同于經(jīng)典信息檢索模型,這些神經(jīng)方法非常需要數(shù)據(jù),數(shù)據(jù)越多,性能越好。

文本表征可通過(guò)非監(jiān)督或監(jiān)督方式習(xí)得。監(jiān)督式方法使用諸如標(biāo)注的查詢文檔對(duì)(query-document pairs)這樣的信息檢索數(shù)據(jù)來(lái)習(xí)得一個(gè)表征,其專為手頭任務(wù)進(jìn)行端到端優(yōu)化。如果沒(méi)有足夠的信息檢索標(biāo)記,那么非監(jiān)督式方法可僅通過(guò)使用查詢和/或文檔來(lái)習(xí)得一個(gè)表征。在非監(jiān)督學(xué)習(xí)方法中,不同的非監(jiān)督式學(xué)習(xí)設(shè)置可能會(huì)導(dǎo)致不同的向量表征,這些表征不同于它們?cè)诒槐碚鲗?duì)象之間所捕獲的相似度概念。當(dāng)應(yīng)用這些表征時(shí),應(yīng)該仔細(xì)考察非監(jiān)督學(xué)習(xí)設(shè)置的選擇,因此,我們可以產(chǎn)生一個(gè)適合于目標(biāo)任務(wù)的文本相似度概念。傳統(tǒng)信息檢索模型比如潛在語(yǔ)義分析 (Latent Semantic Analysis,LSA)可以學(xué)習(xí)密集的詞和文檔的向量表征。神經(jīng)表征學(xué)習(xí)模型和這些傳統(tǒng)方法享有一些共性。幾十年來(lái),我們對(duì)這些傳統(tǒng)方法的大部分理解都可以被擴(kuò)展成這些現(xiàn)代表征學(xué)習(xí)模型。

在其它領(lǐng)域,神經(jīng)網(wǎng)絡(luò)的進(jìn)步已經(jīng)由特定的數(shù)據(jù)集和應(yīng)用需求所推動(dòng)。例如,數(shù)據(jù)集和成功的架構(gòu)因視覺(jué)對(duì)象識(shí)別、語(yǔ)音識(shí)別和游戲代理而迥然不同。盡管信息檢索與自然語(yǔ)言處理領(lǐng)域有一些共同特征,但是它也面臨自己的一系列特殊挑戰(zhàn)。信息檢索系統(tǒng)必須處理可能包含未見(jiàn)過(guò)詞語(yǔ)的簡(jiǎn)短查詢(short query),以此來(lái)和不同長(zhǎng)度的文檔進(jìn)行匹配,找到可能包含了大量不相關(guān)文本的相關(guān)文檔。信息檢索系統(tǒng)應(yīng)該在查詢(query)和表明了相關(guān)性的文檔文本中學(xué)習(xí)模式,即便查詢和文檔使用了不同的詞匯,甚至即便模式是專用于任務(wù)(task-specific)或語(yǔ)境(context-specific)的。

該教程的目標(biāo)是在傳統(tǒng)信息檢索研究的語(yǔ)境里介紹神經(jīng)信息檢索的基本內(nèi)容,用可見(jiàn)的實(shí)例展示關(guān)鍵概念和描述關(guān)鍵模型的一致性數(shù)學(xué)標(biāo)注(notation)。第二部分會(huì)給出一個(gè)信息檢索的任務(wù)、挑戰(zhàn)、量度和非神經(jīng)模型的調(diào)查。第三部分會(huì)提供簡(jiǎn)要神經(jīng)信息檢索模型的概覽與信息檢索的不同神經(jīng)方法的分類。第四部分介紹學(xué)習(xí)項(xiàng)嵌入(term embedding)的神經(jīng)和非神經(jīng)方法,這些方法不使用來(lái)自信息檢索標(biāo)簽的監(jiān)督,而是聚焦在相似度概念上。第五部分調(diào)查了合并這些信息檢索嵌入的一些特殊方法。第六部分介紹了目前在信息檢索中使用的深度模型的基本情況,包括了熱門架構(gòu)和工具包。

第七部分調(diào)查了一些在信息檢索中實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)的特殊方法。第八部分是我們的討論,包括未來(lái)的工作與結(jié)論。

ACM SIGIR 大會(huì)上神經(jīng)信息檢索(IR)論文的百分比

圖 1:ACM SIGIR 大會(huì)上神經(jīng)信息檢索(IR)論文的百分比——該數(shù)據(jù)通過(guò)對(duì)論文題目進(jìn)行手動(dòng)篩查計(jì)算獲得——其清晰展示出該研究領(lǐng)域的熱門程度正在逐年上升。

由于神經(jīng)信息檢索正在成為一個(gè)新興領(lǐng)域,所以我們撰寫了該教程。神經(jīng)信息檢索領(lǐng)域的研究出版物正在逐漸增多(圖 1),與之同步增長(zhǎng)的還有相關(guān)話題的研討會(huì) [42–44]、教程 [97, 119, 140] 和大會(huì) [41, 129]。由于這種興趣是最近不久才產(chǎn)生的,所以部分有信息檢索專長(zhǎng)的研究人員可能對(duì)神經(jīng)模型不太熟悉,而其它熟悉神經(jīng)模型的研究人員又可能對(duì)信息檢索不太熟悉。所以該教程的目的即通過(guò)描述當(dāng)下正在使用的相關(guān)信息檢索概念和神經(jīng)方法來(lái)彌合這條縫隙。

以下為該概述論文目錄:

2 文本檢索基礎(chǔ)(Fundamentals of text retrieval)

3 剖析神經(jīng)信息檢索模型(Anatomy of a neural IR model)

4 項(xiàng)表征(Term representations)

5 用于信息檢索的項(xiàng)嵌入(Term embeddings for IR)

6 深度神經(jīng)網(wǎng)絡(luò)(Deep neural networks)

7 用于信息檢索的深度神經(jīng)模型(Deep neural models for IR)

8 總結(jié)

原文:https://arxiv.org/abs/1705.01509

【本文是51CTO專欄機(jī)構(gòu)機(jī)器之心的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

 

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專欄
相關(guān)推薦

2021-08-03 13:42:34

數(shù)字化

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2017-09-08 15:36:15

DNN神經(jīng)網(wǎng)絡(luò)算法

2020-08-06 10:11:13

神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)算法

2017-08-07 17:09:46

GAN信息檢索 IR

2025-02-25 10:50:11

2023-07-30 22:34:56

隱私保護(hù)檢索

2023-02-09 08:53:26

GNN神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

2018-08-03 16:00:09

人工智能神經(jīng)網(wǎng)絡(luò)高級(jí)算法

2017-04-26 08:31:10

神經(jīng)網(wǎng)絡(luò)自然語(yǔ)言PyTorch

2023-05-12 14:58:50

Java神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

2025-02-25 14:13:31

2017-09-10 07:07:32

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集可視化

2017-05-04 18:30:34

大數(shù)據(jù)卷積神經(jīng)網(wǎng)絡(luò)

2019-05-07 19:12:28

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)Python

2022-04-07 09:01:52

神經(jīng)網(wǎng)絡(luò)人工智能

2017-03-07 13:55:30

自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

2018-02-25 11:31:06

句法敏感神經(jīng)網(wǎng)絡(luò)關(guān)系抽取

2019-06-06 09:00:02

卷積神經(jīng)網(wǎng)絡(luò)CNNAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)