自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

30萬真實查詢、200萬互聯(lián)網(wǎng)段落,中文段落排序基準(zhǔn)數(shù)據(jù)集發(fā)布

人工智能 新聞
T2Ranking由超過 30 萬的真實查詢和 200 萬的互聯(lián)網(wǎng)段落構(gòu)成,并且包含了由專業(yè)標(biāo)注人員提供的 4 級細(xì)粒度相關(guān)性標(biāo)注。

段落排序是信息檢索領(lǐng)域中十分重要且具有挑戰(zhàn)性的話題,受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。段落排序模型的有效性能夠提高搜索引擎用戶的滿意度并且對問答系統(tǒng)、閱讀理解等信息檢索相關(guān)應(yīng)用有所助益。在這一背景下,例如 MS-MARCO,DuReader_retrieval 等一些基準(zhǔn)數(shù)據(jù)集被構(gòu)建用于支持段落排序的相關(guān)研究工作。然而常用的數(shù)據(jù)集大部分都關(guān)注英文場景,對于中文場景,已有的數(shù)據(jù)集在數(shù)據(jù)規(guī)模、細(xì)粒度的用戶標(biāo)注和假負(fù)例問題的解決上存在局限性。在這一背景下,我們基于真實搜索日志,構(gòu)建了一個全新的中文段落排序基準(zhǔn)數(shù)據(jù)集:T2Ranking。

T2Ranking由超過 30 萬的真實查詢和 200 萬的互聯(lián)網(wǎng)段落構(gòu)成,并且包含了由專業(yè)標(biāo)注人員提供的 4 級細(xì)粒度相關(guān)性標(biāo)注。目前數(shù)據(jù)和一些 baseline 模型已經(jīng)公布在 Github,相關(guān)研究工作已作為 Resource 論文被 SIGIR 2023 錄用。

圖片


  • 論文信息:Xiaohui Xie, Qian Dong, Bingning Wang, Feiyang Lv, Ting Yao, Weinan Gan, Zhijing Wu, Xiangsheng Li, Haitao Li, Yiqun Liu, and Jin Ma. T2Ranking: A large-scale Chinese Benchmark . SIGIR 2023.
  • 論文地址:https://arxiv.org/abs/2304.03679
  • Github 地址:https://github.com/THUIR/T2Ranking

背景與相關(guān)工作

段落排序任務(wù)的目標(biāo)是基于給定的查詢詞,從一個大規(guī)模段落集合中召回并排序候選段落,按照相關(guān)性從高到低的順序得到段落列表。段落排序一般由段落召回和段落重排序兩個階段組成。

為了支持段落排序任務(wù),多個數(shù)據(jù)集合被構(gòu)建用于訓(xùn)練和測試段落排序算法。廣泛使用的數(shù)據(jù)集大多聚焦英文場景,例如最常用的有 MS-MARCO 數(shù)據(jù)集,該數(shù)據(jù)集包含了 50 多萬個查詢詞和 800 多萬個段落,其中,每一個查詢詞都具有問題屬性。對于每一個查詢詞,MS-MARCO 數(shù)據(jù)發(fā)布團隊招募了標(biāo)注人員提供了標(biāo)準(zhǔn)答案,根據(jù)給定段落是否包含人工提供的標(biāo)準(zhǔn)答案判斷這個段落是否與查詢詞相關(guān)。

在中文場景中,也有一些數(shù)據(jù)集被構(gòu)建用于支持段落排序任務(wù)。例如 mMarco-Chinese 是 MS-MARCO 數(shù)據(jù)集的中文翻譯版本,DuReader_retrieval 數(shù)據(jù)集采用了和 MS-MARCO 相同的范式生成段落標(biāo)簽,即從人工提供的標(biāo)準(zhǔn)答案中來給定查詢詞 - 段落對的相關(guān)性評分。Multi-CPR 模型包含了來自三個不同領(lǐng)域(電子商務(wù)、娛樂視頻和醫(yī)藥)的段落檢索數(shù)據(jù)?;谒压匪阉鞯娜罩緮?shù)據(jù),Sogou-SRR,Sogou-QCL 和 Tiangong-PDR 等數(shù)據(jù)集也相繼被提出。

圖片

圖 1:段落排序任務(wù)中常用數(shù)據(jù)集的統(tǒng)計信息

雖然已有數(shù)據(jù)集推進了段落排序應(yīng)用的發(fā)展,我們也需要關(guān)注幾個局限性:

1)這些數(shù)據(jù)集不是大規(guī)模的或者相關(guān)性標(biāo)簽不是人工標(biāo)注的,特別是在中文場景下。Sogou-SRR 和 Tiangong-PDR 僅包含了少量的查詢數(shù)據(jù)。雖然 mMarco-Chinese 和 Sogou-QCL 規(guī)模較大,但前者基于機器翻譯,后者采用的相關(guān)性標(biāo)簽為用戶的點擊數(shù)據(jù)。最近,Multi-CPR 和 DuReader_retrieval 兩個規(guī)模相對較大的數(shù)據(jù)集被相繼構(gòu)建和發(fā)布。

2)已有數(shù)據(jù)集缺乏細(xì)粒度的相關(guān)性標(biāo)注信息。大部分?jǐn)?shù)據(jù)集采用了二值相關(guān)性標(biāo)注(粗粒度),即相關(guān)或者不相關(guān)。已有工作表明細(xì)粒度的相關(guān)性標(biāo)注信息有助于挖掘不同實體之間的關(guān)系和構(gòu)建更加精準(zhǔn)的排序算法。然后已有數(shù)據(jù)集不提供或者僅提供少量的多級細(xì)粒度標(biāo)注。例如 Sogou-SRR 或者 Tiangong-PDR 僅提供不超過 10 萬個的細(xì)粒度標(biāo)注。

3)假負(fù)例問題影響了評價的準(zhǔn)確性。已有數(shù)據(jù)集受到了假負(fù)例問題的影響,即有大量相關(guān)文檔被標(biāo)記為不相關(guān)文檔。這一問題是由于大規(guī)模數(shù)據(jù)中人工標(biāo)注數(shù)量過少引起的,會顯著影響評價的準(zhǔn)確性。例如在 Multi-CPR 中,對于每一個查詢詞只有一個段落會被標(biāo)記為相關(guān),而其他都會被標(biāo)記為不相關(guān)。DuReader_retrieval 嘗試讓標(biāo)注者人工檢查并且重新標(biāo)注靠前的段落集合來緩解假負(fù)例問題。

為了能夠更好地支持段落排序模型進行高質(zhì)量的訓(xùn)練和評測,我們構(gòu)建并且發(fā)布了一個新的中文段落檢索基準(zhǔn)數(shù)據(jù)集 - T2Ranking。

數(shù)據(jù)集構(gòu)建流程

數(shù)據(jù)集的構(gòu)建流程包括查詢詞采樣,文檔召回,段落提取和細(xì)粒度相關(guān)性標(biāo)注。同時我們也設(shè)計了多個方法用于提升數(shù)據(jù)集質(zhì)量,包括采用基于模型的段落切分方法和基于聚類的段落去重方法保證了段落的語義完整性和多樣性,采用基于主動學(xué)習(xí)的標(biāo)注方法提升標(biāo)注的效率和質(zhì)量等。

1)整體流程

  • 查詢詞采樣:我們從搜狗搜索引擎的搜索日志中采樣了真實用戶提交的查詢詞,經(jīng)過去重和歸一化處理后得到了初始查詢詞集合。接著,我們使用意圖分析算法去除了色情查詢,非疑問查詢,資源申請類查詢和可能包含用戶信息的查詢,保證最終查詢數(shù)據(jù)集合僅包含高質(zhì)量、具有問題屬性的查詢。
  • 文檔召回:基于采樣得到的查詢詞,我們從搜狗、百度和谷歌等多個主流搜索引擎召回了文檔候選集合,充分綜合了這些搜索引擎在索引和排序文檔方面的能力。因為這些搜索引擎能夠覆蓋互聯(lián)網(wǎng)數(shù)據(jù)的不同部分并且能夠返回多樣化的文檔結(jié)果,因此能夠提高文檔候選集合的完整性,并且在一定程度上緩解假負(fù)例問題。
  • 段落提取:段落提取步驟涉及到段落分割和去重。不同于采用啟發(fā)式方法在文檔中分割段落(例如常規(guī)地通過換行符確定段落的開始和結(jié)束),我們訓(xùn)練了段落語義模型來進行段落分割,盡可能地保證每個段落的語義完整性。此外,我們還引入了一種基于聚類的技術(shù)來提高標(biāo)注的效率并且保證了標(biāo)注段落的多樣性,這個技術(shù)能夠有效地移除高度相似的段落。
  • 細(xì)粒度相關(guān)性標(biāo)注:所聘請的標(biāo)注人員均為搜索相關(guān)標(biāo)注任務(wù)的專家,并且長期從事標(biāo)注工作。對于每一個查詢詞 - 段落對,至少 3 名標(biāo)注人員會提供標(biāo)注。如果 3 名標(biāo)注人員的標(biāo)注結(jié)果均不一致,我們會引入額外的標(biāo)注者進行標(biāo)注,如果 4 名標(biāo)注者的結(jié)果均不一致,我們傾向于認(rèn)為這個查詢詞 - 段落對太過于模糊,質(zhì)量較低且不太能夠確定所需要的信息,從而將該查詢詞 - 段落對排除在數(shù)據(jù)集外。我們通過多數(shù)投票的方式來確定最終的相關(guān)性標(biāo)簽。我們采用的 4 級相關(guān)性標(biāo)注指南與 TREC 基準(zhǔn)一致。
  • 級別 0:查詢詞與段落內(nèi)容之間完全不相關(guān)
  • 級別 1:段落內(nèi)容與查詢詞相關(guān),但不符合查詢詞的信息需求
  • 級別 2:段落內(nèi)容與查詢詞相關(guān),能夠部分滿足查詢詞的信息需求
  • 級別 3:段落內(nèi)容能夠完全滿足查詢詞的信息需求,并且包含了準(zhǔn)確答案。

圖片

圖 2:維基百科頁面示例。所展示的文檔包含了清晰定義的段落。

2)基于模型的段落分割方法

在現(xiàn)有數(shù)據(jù)集中,段落通常是根據(jù)自然段落(換行符)或通過固定長度的滑動窗口從文檔中進行分割得到的。然而,這兩種方法可能都會導(dǎo)致段落的語義不完整或者因為段落過長而導(dǎo)致段落包含了多個不同的主題。在這個工作中,我們采用了基于模型的段落分割方法,具體而言,我們使用搜狗百科、百度百科和中文維基百科作為訓(xùn)練數(shù)據(jù),因為這部分文檔的結(jié)構(gòu)是比較清晰的,并且自然段落也都得到了較好的定義。我們訓(xùn)練了一個分割模型來判斷一個給定的單詞是否需要作為分割點。我們利用了序列標(biāo)注任務(wù)的思想,將每一個自然段的最后一個單詞作為正例對模型進行訓(xùn)練。

3)基于聚類的段落去重方法

對高度相似的段落進行標(biāo)注是冗余和無意義的,對于段落排序模型而言,高度相似的段落內(nèi)容帶來的信息增益有限,因此我們設(shè)計了一個基于聚類的段落去重方法來提高標(biāo)注的效率。具體而言,我們采用了一個層次化聚類算法 Ward 對相似文檔進行無監(jiān)督聚類。在同一個類中的段落被認(rèn)為是高度相似的,我們從每一個類中采樣一個段落進行相關(guān)性標(biāo)注。需要注意的是,我們只在訓(xùn)練集中進行這個操作,對于測試集,我們會對所有提取的段落進行完整標(biāo)注,減少假負(fù)例的影響。

圖片

圖 3:基于主動學(xué)習(xí)的采樣標(biāo)注流程

4)基于主動學(xué)習(xí)的數(shù)據(jù)采樣標(biāo)注方法

在實踐中,我們觀察到并不是所有的訓(xùn)練樣本都能夠進一步提升排序模型的性能。對于模型能夠準(zhǔn)確預(yù)測的訓(xùn)練樣本,對于后續(xù)模型的訓(xùn)練助益有限。因此,我們借鑒了主動學(xué)習(xí)的想法,讓模型能夠選擇更有信息量的訓(xùn)練樣本進行進一步的標(biāo)注。具體而言,我們先基于已有的訓(xùn)練數(shù)據(jù),訓(xùn)練了一個以交叉編碼器為框架的查詢詞 - 段落重排序模型,接著我們用這個模型對其他數(shù)據(jù)進行預(yù)測,去除過高置信分?jǐn)?shù)(信息量低)和過低置信分?jǐn)?shù)(噪音數(shù)據(jù))的段落,對保留的段落進行進一步標(biāo)注,并迭代這一流程。

數(shù)據(jù)集統(tǒng)計信息

T2Ranking 由超過 30 萬的真實查詢和 200 萬的互聯(lián)網(wǎng)段落構(gòu)成。其中,訓(xùn)練集包含約 25 萬個查詢詞,測試集包含約 5 萬個查詢詞。查詢詞長度最長為 40 個字符,平均長度在 11 個字符左右。同時,數(shù)據(jù)集中的查詢詞覆蓋了多個領(lǐng)域,包括醫(yī)藥、教育、電商等,我們也計算了查詢詞的多樣性分?jǐn)?shù)(ILS),與已有數(shù)據(jù)集相比,我們的查詢多樣性更高。采樣的 230 多萬個段落來源于 175 萬個文檔,平均每個文檔被分割為了 1.3 個段落。在訓(xùn)練集中,平均每個查詢詞有 6.25 個段落被人工標(biāo)注,而在測試集中,平均每個查詢詞有 15.75 個段落被人工標(biāo)注。

圖片

圖 4:數(shù)據(jù)集中查詢詞的領(lǐng)域分布情況

圖片

圖 5:相關(guān)性標(biāo)注分布情況

常用模型的實驗結(jié)果

我們在所得到的數(shù)據(jù)集上,測試了一些常用的段落排序模型的性能,我們同時評測了已有方法在段落召回和段落重排序兩個階段上的性能。

1)段落召回實驗?

已有的段落召回模型可以被大致分為稀疏召回模型和稠密召回模型。

  • 稀疏召回模型關(guān)注精確匹配信號來設(shè)計相關(guān)性打分函數(shù),例如 BM25 就是最具代表性的基準(zhǔn)模型。
  • 稠密召回模型則采用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)低維的稠密向量用于表征查詢詞和段落。

我們測試了以下召回模型的表現(xiàn):

  • QL(query likelihood):QL 是具有代表性的統(tǒng)計語言模型,根據(jù)段落生成給定查詢詞的概率來評價相關(guān)性。
  • BM25:常用的稀疏召回基準(zhǔn)模型。
  • DE w/ BM25 Neg:即 DPR 模型,雙塔編碼器結(jié)構(gòu)(Dual-Encoder),該模型是第一個利用預(yù)訓(xùn)練語言模型作為骨干框架的段落召回模型。
  • DE w/Mined Neg:雙塔編碼器結(jié)構(gòu)(Dual-Encoder),通過從全量語料中召回難負(fù)例來增強 DPR 模型的性能。
  • DPTDR:第一個采用提示微調(diào)(prompt tunning)的段落召回模型。

在這些模型中,QL 和 BM25 是稀疏召回模型,其他模型為稠密召回模型。我們采用 MRR,Recall 等常用指標(biāo)來評價這些模型的性能,實驗結(jié)果如下表所示:

圖片

圖 6:段落召回模型在測試集上的表現(xiàn)

從實驗結(jié)果可以看出,相較于傳統(tǒng)的稀疏排序模型,稠密檢索模型取得了更好的表現(xiàn)。同時引入了難負(fù)例對于模型性能的提升也是有幫助的。值得一提的是,這些實驗?zāi)P驮谖覀償?shù)據(jù)集上的召回表現(xiàn)要比在其他數(shù)據(jù)集上的表現(xiàn)差,例如 BM25 在我們的數(shù)據(jù)集上的 Recall@50 是 0.492,而在 MS-Marco 和 Dureader_retrieval 上是 0.601 和 0.700。這可能是由于我們有更多的段落被進行了人工標(biāo)注,在測試集中,平均每個查詢詞下我們有 4.74 個相關(guān)文檔,這使得召回任務(wù)更加具有挑戰(zhàn)性且一定程度上降低了假負(fù)例的問題。這也說明了 T2Ranking 是一個具有挑戰(zhàn)的基準(zhǔn)數(shù)據(jù)集,對未來的召回模型而言有較大的提升空間。

2)段落重排序?qū)嶒?/strong>?

相比于段落召回階段,重排序階段需要考慮的段落規(guī)模較小,因此大多數(shù)方法傾向于使用交互編碼器(Cross-Encoder)作為模型框架,在本工作中,我們測試了交互編碼器模型在段落重排序任務(wù)上的性能,我們采用 MRR 和 nDCG 作為評價指標(biāo),實驗效果如下:

圖片

圖 7:交互編碼器在段落重排序任務(wù)上的表現(xiàn)

實驗結(jié)果表明,在雙塔編碼器(Dual-Encoder)召回的段落基礎(chǔ)上進行重排效果比在 BM25 召回的段落基礎(chǔ)上重排能夠取得更好的效果,這與已有工作的實驗結(jié)論一致。與召回實驗類似,重排序模型在我們數(shù)據(jù)集上的表現(xiàn)比在其他數(shù)據(jù)集上的表現(xiàn)差,這可能是由于我們數(shù)據(jù)集采用了細(xì)粒度標(biāo)注且具有更高的查詢詞多樣性造成,也進一步說明了我們的數(shù)據(jù)集是具有挑戰(zhàn)性的,并且能夠更精確地反映模型性能。

數(shù)據(jù)集發(fā)布團隊介紹

該數(shù)據(jù)集由清華大學(xué)計算機系信息檢索課題組(THUIR)和騰訊公司 QQ 瀏覽器搜索技術(shù)中心團隊共同發(fā)布,得到了清華大學(xué)天工智能計算研究院的支持。THUIR 課題組聚焦搜索與推薦方法研究,在用戶行為建模和可解釋學(xué)習(xí)方法等方面取得了典型成果,課題組成果獲得了包括 WSDM2022 最佳論文獎、SIGIR2020 最佳論文提名獎和 CIKM2018 最佳論文獎在內(nèi)的多項學(xué)術(shù)獎勵,并獲得了 2020 年中文信息學(xué)會 “錢偉長中文信息處理科學(xué)技術(shù)獎” 一等獎。QQ 瀏覽器搜索技術(shù)中心團隊是騰訊 PCG 信息平臺與服務(wù)線負(fù)責(zé)搜索技術(shù)研發(fā)的團隊,依托騰訊內(nèi)容生態(tài),通過用戶研究驅(qū)動產(chǎn)品創(chuàng)新,為用戶提供圖文、資訊、小說、長短視頻、服務(wù)等多方位的信息需求滿足。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2019-06-11 15:55:35

2016-11-28 16:12:32

萬國數(shù)據(jù)

2014-06-27 16:24:21

萬國數(shù)據(jù)云計算互聯(lián)網(wǎng)金融

2016-11-01 14:04:51

2015-06-25 11:07:59

京東互聯(lián)網(wǎng)+

2018-12-17 08:59:38

2023-09-27 19:03:17

模型AI

2011-11-15 08:53:52

用戶

2023-05-06 15:12:47

2009-06-03 08:38:50

阿里巴巴并購互聯(lián)網(wǎng)公司

2015-07-20 15:08:48

移動互聯(lián)網(wǎng)Android

2024-10-11 13:12:22

2009-03-30 11:02:11

2013-07-22 15:12:03

互聯(lián)網(wǎng)創(chuàng)新創(chuàng)業(yè)

2015-03-24 16:56:17

IT領(lǐng)袖峰會黃偉萬國數(shù)據(jù)

2019-07-05 20:28:11

互聯(lián)網(wǎng)銳捷網(wǎng)絡(luò)

2015-10-20 20:02:49

京東云

2015-06-24 15:35:54

2013-06-24 14:23:38

2015-06-25 10:29:53

中國軟件網(wǎng)
點贊
收藏

51CTO技術(shù)棧公眾號