自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

什么是機器閱讀理解?跟自然語言處理有什么關(guān)系?

人工智能 機器學(xué)習(xí) 自然語言處理
機器閱讀理解的目標(biāo)是利用人工智能技術(shù),使計算機具有和人類一樣理解文章的能力。

 [[324510]]

01 機器閱讀理解任務(wù)

學(xué)者C. Snow于2002年發(fā)表的一篇論文中將閱讀理解定義為“通過交互從書面文字中提取與構(gòu)造文章語義的過程”。而機器閱讀理解的目標(biāo)是利用人工智能技術(shù),使計算機具有和人類一樣理解文章的能力。

圖1所示為機器閱讀理解的一個樣例。示例中,機器閱讀理解模型需要用文章中的一段原文來回答問題。

▲圖1 機器閱讀理解任務(wù)樣例

1. 機器閱讀理解模型

機器閱讀理解模型的輸入為文章和問題文本,輸出為最終的回答。為了完成任務(wù),模型需要深度分析文章語義以及文章和問題之間的聯(lián)系,然后根據(jù)文章中的內(nèi)容作出準(zhǔn)確回答。

當(dāng)前,絕大多數(shù)機器閱讀理解算法均采用深度學(xué)習(xí)模型,利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行建模與優(yōu)化。深度學(xué)習(xí)的特點是,模型能根據(jù)訓(xùn)練集上預(yù)測的準(zhǔn)確度直接優(yōu)化參數(shù),不斷提高模型性能,從而達(dá)到很好的效果。

由于深度學(xué)習(xí)需要在數(shù)值空間處理信息,因此閱讀理解模型首先要對文章和問題進(jìn)行數(shù)字化表示,形成文本編碼。常見的方法是詞向量(word vector):將文本分成若干單詞,然后用一串?dāng)?shù)字(即一個向量)表示一個單詞。

  •  文本的數(shù)字化表示:分詞與詞向量
    •  原文:今天天氣真好
    •  分詞:今天|天氣|真|好
    •  詞向量:

           今天:[3.2, -1.5, 6.0]

           天氣:[-0.2, -5.0, 1.7]

           真:[1.4, 2.8, 0.9]

           好:[-2.6, 3.8, -5.2]

常用的中英文分詞算法我們已經(jīng)在《為什么中文分詞比英文分詞更難?有哪些常用算法?(附代碼)》介紹。

接下來,機器閱讀理解模型會對這些數(shù)字化編碼進(jìn)行各種操作,獲得上下文信息以及文章和問題之間的語義關(guān)聯(lián),從而獲取有關(guān)答案的線索。一般而言,基于深度學(xué)習(xí)的機器閱讀理解模型的架構(gòu)分為3個部分:

  •  編碼層對文章和問題進(jìn)行單詞編碼,并完成上下文語義分析;
  •  交互層處理文章和問題之間的關(guān)聯(lián)信息,找出文章中與問題相關(guān)的線索;
  •  輸出層將之前處理的信息按照任務(wù)要求生成答案。

不同的機器閱讀理解模型通常是上述3個部分中使用不同的模塊與連接方式。但無論哪種閱讀理解模型,其訓(xùn)練過程都依賴于人工標(biāo)注的數(shù)據(jù),如大量文章–問題–答案的三元組。

但是,生成這些標(biāo)注數(shù)據(jù)需要花費大量的時間和人力。因此,近年來自然語言處理界提出了預(yù)訓(xùn)練+微調(diào)模式:在大量無標(biāo)注文本數(shù)據(jù)上訓(xùn)練大規(guī)模模型,然后在少量具體任務(wù)的標(biāo)注數(shù)據(jù)(如閱讀理解)上進(jìn)行微調(diào)。這種模式取得了很好的效果,也有效緩解了標(biāo)注數(shù)據(jù)缺乏的問題。

[[324511]]

2. 機器閱讀理解的應(yīng)用

隨著各行各業(yè)文本數(shù)據(jù)的大量產(chǎn)生,傳統(tǒng)的人工處理方式因為處理速度慢、開銷巨大等因素成為產(chǎn)業(yè)發(fā)展的瓶頸。因此,能自動處理分析文本數(shù)據(jù)并從中抽取語義知識的機器閱讀理解技術(shù)逐漸受到人們的青睞。

例如,傳統(tǒng)的搜索引擎只能返回與用戶查詢相關(guān)的文檔,而閱讀理解模型可以在文檔中精確定位問題的答案,從而提高用戶體驗。

  •  在客戶服務(wù)中,利用機器閱讀理解在產(chǎn)品文檔中找到與用戶描述問題相關(guān)的部分并給出詳細(xì)解決方案,可以大大提高客服效率。
  •  在智能醫(yī)療領(lǐng)域,閱讀理解模型能根據(jù)患者癥狀描述自動查閱大量病歷和醫(yī)學(xué)論文,找到可能的病因并輸出診療方案。
  •  在語言教育方面,可以利用閱讀理解模型批改學(xué)生的作文并給出改進(jìn)意見,隨時隨地幫助學(xué)生提高作文水平。

可以看出,凡是需要自動處理和分析大量文本內(nèi)容的場景下,機器閱讀理解都可以幫助節(jié)省大量人力和時間。

在很多領(lǐng)域中,如果閱讀理解模型的質(zhì)量沒有達(dá)到完全替代人類的水平,可采用與人工結(jié)合的方式,利用計算機處理簡單高頻的問題,從而達(dá)到降低成本的作用。因此,機器閱讀理解成為當(dāng)前人工智能研究中最前沿、最熱門的方向之一。

02 自然語言處理

機器閱讀理解屬于語言處理的范疇,而自然語言處理是人工智能領(lǐng)域的重要研究方向。它主要分析人類語言的規(guī)律和結(jié)構(gòu),設(shè)計計算機模型理解語言并與人類進(jìn)行交流。自然語言處理的歷史可以追溯到人工智能的誕生。

在數(shù)十年的發(fā)展中,自然語言的處理、理解和生成等領(lǐng)域的研究已經(jīng)取得了長足的進(jìn)步。這些都為機器閱讀理解研究奠定了堅實的基礎(chǔ)。本節(jié)主要介紹自然語言處理的研究現(xiàn)狀及其對機器閱讀理解的影響。

1. 研究現(xiàn)狀

經(jīng)過70余年的發(fā)展,自然語言處理相關(guān)研究已經(jīng)細(xì)化分類成許多子任務(wù)。以下是與機器閱讀理解相關(guān)的重要研究方向。

  1.  信息檢索(information retrieval)。研究如何在海量文檔或網(wǎng)頁中尋找與用戶查詢相關(guān)的結(jié)果。信息檢索方面的研究已經(jīng)相當(dāng)成熟,并廣泛應(yīng)用在網(wǎng)頁搜索等產(chǎn)品中,為信息的傳播和獲取提供了極大的便利。當(dāng)一個閱讀理解任務(wù)涉及大規(guī)模文本庫時,信息檢索通常作為系統(tǒng)中抽取相關(guān)信息的第一個模塊。

      2.  問答系統(tǒng)(question and answering system)是指可以自動回答用戶提出問題的系統(tǒng)。問答系統(tǒng)與信息檢索的區(qū)別在于,問答系統(tǒng)需要理解復(fù)雜問題的語義,并支持多輪有上下文的對話。例如,對話式閱讀理解需要模型同時分析文章語義和之前對話輪次的信息,再對當(dāng)前問題作出回答。

      3.  文本分類(text classification)是指對文章、段落、語句進(jìn)行分類,如將大量網(wǎng)頁按照內(nèi)容和主題進(jìn)行劃分。一些機器閱讀理解模型對問題進(jìn)行分類,如關(guān)于時間的問題、關(guān)于地點的問題等,以提高答案的準(zhǔn)確性。這種問題分類就屬于文本分類的范疇。

      4.  機器翻譯(machine translation)研究如何讓計算機自動翻譯文本,可以應(yīng)用在跨語言的閱讀理解任務(wù)中。例如,當(dāng)文本來自小語種語言時,我們可以利用機器自動翻譯常用語言中的閱讀理解數(shù)據(jù),從而解決訓(xùn)練數(shù)據(jù)缺乏的問題。

      5.  文本摘要(text summarization)研究如何用簡潔的語言概括文章的主旨和重要信息。由于文本摘要需要對文章語義進(jìn)行分析并生成結(jié)果,其中的很多技術(shù)被應(yīng)用到機器閱讀理解中,例如序列到序列模型(sequence-to-sequence),拷貝–生成網(wǎng)絡(luò)(pointer-generator network)等。

[[324512]]

2. 仍需解決的問題

隨著相關(guān)模型的不斷發(fā)展,自然語言處理在許多任務(wù)中取得了令人矚目的成績。但是,仍有許多沒有很好解決的問題,其中也包括對基本語言結(jié)構(gòu)和語義的理解。這些也是機器閱讀理解研究中亟待解決的問題。

1)語言的歧義性

由于語言的一大特性是用較為精練的語句代表復(fù)雜的語義,因此一段文本時常會存在多義和歧義等情況,也就是有多種合理的解釋方式。來看下面幾個例子。

  •  示例1:工廠領(lǐng)導(dǎo)對小張的批評意見進(jìn)行過多次討論。

這里,既可以理解為領(lǐng)導(dǎo)討論了小張對工廠提出的批評意見,也可以理解為領(lǐng)導(dǎo)討論了對小張的批評意見。原因是“對”的對象可以是“小張的批評意見”,也可以是“小張”。

  •  示例2:化學(xué)所取得的成績是有目共睹的。

這里,既可以理解為成績是“化學(xué)”取得的,也可以理解為成績是“化學(xué)所”取得的。原因是“所”既可以作為介詞,也可以作為“化學(xué)所”的一部分。

  •  示例3:我要炒青菜。

這里,可以認(rèn)為“炒青菜”是一道菜,而“我”在點菜,也可以認(rèn)為“我”要去炒青菜。原因是“炒”可以作為整句話的動詞,也可以和“青菜”組成菜名。

這樣的歧義性示例還有許多。即使人類在面對這些語句時,也很難判斷說話者的真實意圖。但是,如果有上下文信息,歧義就會消除。

例如,“我要炒青菜”發(fā)生在餐館點菜語境中,就說明“炒青菜”是一道菜;“化學(xué)所取得的成績是有目共睹的”出現(xiàn)在學(xué)校領(lǐng)導(dǎo)對化學(xué)所的考評中,就表示成績是屬于“化學(xué)所”的。

到目前為止,自然語言處理的模型仍不能很好地理解上下文的語義。研究人員通過分析自然語言處理模型在機器閱讀理解模型等任務(wù)上的結(jié)果,發(fā)現(xiàn)現(xiàn)有模型很大程度上是基于單詞或關(guān)鍵詞進(jìn)行匹配,這也導(dǎo)致這些模型對于歧義性文本的處理能力很低。

2)推理能力

在人類語言交流中,許多時候可以從語言推理得出結(jié)論,而不需要詳細(xì)說明。例如,下面這個顧客通過客服訂票的對話例子:

客服:您好,請問我可以怎樣幫助您?

顧客:我想訂一張5月初從北京去上海的機票。

客服:好的,那么您想哪天出發(fā)?

顧客:嗯,我是去上海開會,這個會從4號開到7號。

客服:好的,下面是5月3日從北京出發(fā)到上海的直達(dá)航班信息……

上面的對話中,顧客并沒有正面回答客服關(guān)于哪天出發(fā)的問題,而是給出了開會的時間段。

但是,從訂機票去開會這個事件可以推理出,顧客一定是想在會議開始前到達(dá)目的地,因此客服給出了5月3日出發(fā)的航班信息。當(dāng)然,如果顧客想要訂上?;乇本┑臋C票,客服就應(yīng)該給出5月7日晚或5月8日出發(fā)的航班信息。

因此,智能客服的模型需要根據(jù)之前的談話內(nèi)容推斷出所需要的信息——出發(fā)日期。這種推斷需要模型具有一定的常識,即航班必須在開會前到達(dá)目的地。

近年來已經(jīng)出現(xiàn)常識和推理在自然語言處理應(yīng)用上的研究,但如何讓模型包含海量的常識并進(jìn)行有效的推理仍是一個需要解決的問題。

關(guān)于作者:朱晨光,微軟公司自然語言處理高級研究員、斯坦福大學(xué)計算機系博士。負(fù)責(zé)自然語言處理研究與開發(fā)、對話機器人的語義理解、機器閱讀理解研究等,精通人工智能、深度學(xué)習(xí)與自然語言處理,尤其擅長機器閱讀理解、文本總結(jié)、對話處理等方向。

本文摘編自《機器閱讀理解:算法與實踐》,經(jīng)出版方授權(quán)發(fā)布。 

 

責(zé)任編輯:龐桂玉 來源: 大數(shù)據(jù)DT
相關(guān)推薦

2021-05-17 09:00:00

自然語言人工智能技術(shù)

2021-01-21 10:28:16

自然語言NLP人工智能

2017-03-28 17:52:58

自然語言處理商業(yè)智能

2017-03-30 14:52:34

自然語言商業(yè)智能

2022-11-01 15:02:11

2022-02-14 11:28:51

區(qū)塊鏈元宇宙代幣

2017-12-07 10:46:04

人工智能自然語言處理

2017-12-10 22:19:30

2021-08-17 15:47:12

機器學(xué)習(xí)自然語言神經(jīng)網(wǎng)絡(luò)

2020-11-05 05:31:09

聊天機器人自然語言處理人工智能

2021-10-18 10:17:07

Go Golang語言

2021-05-13 07:17:13

Snownlp自然語言處理庫

2023-09-07 07:20:36

SpaCy自然語言

2023-09-03 14:07:01

自然語言處理人工智能

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2024-02-05 14:18:07

自然語言處理

2022-02-08 09:46:40

Trivergenc三聚體物聯(lián)網(wǎng)

2021-04-12 11:41:09

人工智能知識圖譜

2017-10-19 17:05:58

深度學(xué)習(xí)自然語言

2023-11-02 09:59:53

C++設(shè)計模式
點贊
收藏

51CTO技術(shù)棧公眾號