【深度解析】自然語言生成中的“幻覺”現(xiàn)象 精華
?NLG技術(shù)在文本摘要、對話系統(tǒng)、問答以及機器翻譯等多個領域扮演著至關重要的角色。伴隨著深度學習技術(shù)的飛速發(fā)展,尤其是以Transformer為基礎的模型如BERT、BART、GPT-2和GPT-3的問世,NLG領域迎來了前所未有的繁榮。然而,在NLG模型訓練與解碼過程中,我們不得不面對一個挑戰(zhàn)——幻覺現(xiàn)象。這種現(xiàn)象指的是模型生成的文本可能缺乏趣味性、連貫性,甚至出現(xiàn)重復且毫無意義的輸出,有時這些輸出還會與原始輸入相矛盾。這些“幻覺”問題不僅對模型性能產(chǎn)生負面影響,還可能帶來安全和隱私方面的隱患。例如,在醫(yī)療領域,若生成的摘要出現(xiàn)錯誤,可能會對患者的健康造成風險;而在涉及個人信息的應用中,若模型恢復并泄露了敏感數(shù)據(jù),則會侵犯個人隱私。
一、定義
在心理學中,幻覺是指在沒有外部刺激的情況下,清醒的個體所經(jīng)歷的一種真實感知。類似地,NLG模型產(chǎn)生的這些不忠實或無意義的文本,也給人們帶來了類似心理幻覺的體驗。這些文本看似流暢自然,實則內(nèi)容可能并不真實,甚至荒謬至極。這種難以與真實感知區(qū)分的現(xiàn)象,往往讓人難以一眼識別。
1分類
幻覺主要分為內(nèi)在幻覺和外在幻覺。內(nèi)在幻覺指的是與源內(nèi)容相矛盾的輸出,例如在抽象摘要任務中,生成的摘要“the first Ebola vaccine was approval in 2021”與源內(nèi)容“the first vaccine For Ebola was approval by FDA in 2019”相矛盾。外在幻覺則是無法從源內(nèi)容驗證的輸出,雖然這種事實幻覺有助于回憶起額外的背景知識,提高生成文本的信息量,但由于額外信息的不可驗證性增加了風險,因此在大多數(shù)文獻中,外在性幻覺仍然被謹慎對待。
2術(shù)語說明
自然語言生成(NLG)領域中有兩個極易混淆的概念——“忠實性”與“事實性”,以及它們與“幻覺”現(xiàn)象的關系。
在NLG的研究與應用中,我們經(jīng)常遇到這兩個術(shù)語。簡而言之,“忠實性”指的是生成文本與源材料在內(nèi)容和意圖上的一致性,它是“幻覺”的對立面。而“事實性”則涉及到生成內(nèi)容的真實性,即它是否基于真實發(fā)生的事件或事實。
這兩個概念在定義上的細微差別,有時會導致“真實性”與“忠實性”之間的界限變得模糊。例如,Maynez等研究者[1]通過將“事實”定義為世界知識,來明確區(qū)分“真實性”與“忠實性”。而Dong等研究者[2]則將來源輸入視為“事實”的基礎,以此來判斷事實的正確性,這使得“真實性”與“忠實性”之間的區(qū)別變得不那么清晰。
在我們的討論中,我們傾向于采納Maynez等人的定義,我們認為區(qū)分源知識和世界知識有助于我們更深入地理解這兩個概念。然而,需要注意的是,判斷文本是否忠實或存在幻覺的標準并非一成不變,它可能會根據(jù)不同的任務和應用場景而有所變化。
二、NLG中導致幻覺的因素
視覺編碼器的輸入分辨率將會大幅提升。目前2階段多模態(tài)主流方案由CLIP視覺編碼器和大語言模型組成,主流開源CLIP為的openai、open_clip、智源提供的,這些視覺編碼器的輸入一般為224*224、336*336,無法將圖像細節(jié)特征傳遞給大語言模型,限制了多模態(tài)大模型的發(fā)展。為了解決這個問題,視覺編碼器輸入分辨率需要提升到2K甚至4K。
1.數(shù)據(jù)幻覺
數(shù)據(jù)產(chǎn)生幻覺的主要原因是源參考偏差,這可能源于啟發(fā)式數(shù)據(jù)收集或某些NLG任務的性質(zhì)。例如,在構(gòu)建WIKIBIO[3]數(shù)據(jù)集時,目標引用可能包含源不支持的信息,導致62%的首句有未在信息框中說明的附加信息。此外,重復項沒有正確過濾也會導致模型傾向于生成記憶短語的重復。一些NLG任務并不總是在源輸入文本和目標參考之間具有事實知識對齊,如開放域?qū)υ捪到y(tǒng),這種特征會導致不可避免的外在幻覺。
2.訓練與推理的幻覺
編碼器的主要功能是理解并轉(zhuǎn)化輸入文本為有意義的表示。然而,如果編碼器的理解能力存在缺陷,可能會影響其生成結(jié)果的準確性。特別是當編碼器在學習訓練數(shù)據(jù)時,錯誤地關聯(lián)了不同部分的數(shù)據(jù),就可能導致與實際輸入有偏差的錯誤輸出。
Imperfect representation learning 編碼器的主要功能是理解并轉(zhuǎn)化輸入文本為有意義的表示。然而,如果編碼器的理解能力存在缺陷,可能會影響其生成結(jié)果的準確性。特別是當編碼器在學習訓練數(shù)據(jù)時,錯誤地關聯(lián)了不同部分的數(shù)據(jù),就可能導致與實際輸入有偏差的錯誤輸出。
Erroneous decoding 解碼器在獲取編碼后的輸入并生成目標序列時,可能出現(xiàn)兩種幻覺。首先,解碼器可能關注編碼輸入源的錯誤部分,導致錯誤生成和事實混淆。其次,解碼策略的設計也可能導致幻覺。例如,提高生成多樣性的解碼策略如top-k采樣,與幻覺的增加呈正相關。這種策略通過從前k個樣本中抽樣,增加了生成的意外性質(zhì),從而提高了包含幻覺內(nèi)容的可能性。
Exposure Bias 訓練和推理時間之間的解碼差異,即暴露偏差問題,也可能成為產(chǎn)生幻覺的因素。通常,解碼器通過教師強制最大似然估計(MLE)訓練進行訓練,鼓勵其預測基于基本事實前綴序列生成下一個token。然而,在推理生成過程中,模型以自身先前生成的歷史序列為條件生成下一個token。這種差異可能導致錯誤生成的增加,尤其是在目標序列變得更長時。
Parametric knowledge bias 大型語料庫預訓練模型在提高下游任務性能的同時,也可能導致模型過度依賴參數(shù)化知識,產(chǎn)生幻覺。研究發(fā)現(xiàn),這些模型更傾向于使用自身的參數(shù)知識生成輸出,而非輸入源的信息,這可能導致輸出中存在多余
三、衡量幻覺的指標
近期研究指出,傳統(tǒng)的寫作質(zhì)量評估指標無法準確量化文本中的幻覺程度。先進的摘要系統(tǒng)如ROUGE、BLEU和METEOR在生成的摘要中,有25%的內(nèi)容存在幻覺現(xiàn)象。此外,其他NLG任務也顯示出類似問題,傳統(tǒng)指標與人類對幻覺的判斷相關性差。因此,研究者正在積極尋找有效的幻覺量化指標。
1.統(tǒng)計指標
通過利用詞匯特征(n-grams),我們可以快速評估生成文本與參考文本之間的信息重疊和矛盾。不匹配計數(shù)越高,文本的可信度越低,因此會導致幻覺分數(shù)上升。傳統(tǒng)指標如ROUGE、BLEU主要依賴目標文本作為真實參考,而Dhingra等[4]提出的PARENT指標則可以結(jié)合源文本和目標文本進行評估,使評估更為全面。此方法通過n-gram詞法蘊涵將生成文本與源表和目標文本進行匹配,并結(jié)合f1分數(shù)反映table-to-text任務的準確性。為了更有效地評估,我們不能僅依賴目標文本,因為無法保證輸出目標文本包含輸入源文本中可用的完整信息集。對于NLG任務,從相同輸入獲取多個可信輸出的情況很常見,這被稱為一對多映射。但全面評估所有可能的輸出是不現(xiàn)實的。因此,許多工作選擇依賴源文本作為唯一參考來簡化評估過程。這些工作的指標主要關注輸入源引用的信息,以測量幻覺,尤其是內(nèi)在幻覺。例如,Wang[5]等提出的PARENT-T,只使用表格內(nèi)容作為參考來簡化PARENT。雖然詞法匹配是一種簡單而有效的評估方法,但它只能處理詞法信息,無法處理語法或語義的變化。因此,我們需要結(jié)合其他方法進行更全面的評估。
2.基于模型指標
基于模型的度量利用神經(jīng)模型來測量生成文本中的幻覺程度。它們被用來處理更復雜的句法甚至語義變化?;谀P偷亩攘坷斫庠春蜕傻奈谋荆z測知識/內(nèi)容的不匹配。然而,神經(jīng)模型可能會受到誤差的影響,這些誤差可能會傳播并對幻覺的準確量化產(chǎn)生不利影響。
Information Extraction (IE)-based 基于IE的度量使用IE模型以更簡單的關系元組格式(例如,主題、關系、對象)表示知識,然后根據(jù)從源/引用中提取的關系元組進行驗證。在這里,IE模型識別并提取需要驗證的“事實”。通過這種方式,無信息的單詞(例如,停止語、連詞等)不包括在驗證步驟中。
QA-based 這種方法測量生成和源引用之間的知識重疊。它基于直覺,即如果生成的結(jié)果與源參考事實一致,將從同一個問題生成類似的答案。它已經(jīng)被用于評估許多任務中的幻覺,比如總結(jié)、對話和數(shù)據(jù)文本生成。
基于QA的衡量生成文本忠實度的指標由三部分組成:首先,給定生成的文本,問題生成(QG)模型生成一組問答對。其次,問答 (QA) 模型在給定真實源文本作為參考(包含知識)的情況下回答生成的問題。最后,基于相應答案的相似性來計算幻覺得分。與基于IE的度量類似,這種方法的局限性在于可能從QG模型或QA模型產(chǎn)生和傳播的潛在錯誤。
Natural Language Inference (NLI) Metrics 在早期的幻覺檢測任務中,標記數(shù)據(jù)集較少。作為替代方案,許多工作使用NLI數(shù)據(jù)集處理幻覺問題。NLI任務給定前提下,確定“假設”是否為真(蘊含)、假(矛盾)或未確定(中性)?;贜LI的指標將幻覺/忠實度得分定義為源與生成文本之間的隱含概率。與token匹配等方法相比,基于NLI的方法對詞匯變異性更具魯棒性。然而,現(xiàn)成的NLI模型往往不能很好地轉(zhuǎn)移到抽象摘要任務中。因此,有一系列研究來改進和擴展 NLI 范式,專門用于幻覺評估。此外,Goyal和Durrett[6]指出句子級隱含模型的局限性,提出依賴級蘊涵以更細粒度地識別事實不一致性。
Faithfulness Classification Metrics 為了改進基于NLI的指標,研究者構(gòu)建了特定于任務的數(shù)據(jù)集。Liu等人和Zhou等人在訓練實例中自動插入幻覺構(gòu)建句法數(shù)據(jù)。Santhanam等人和Honovich等人為對話響應中的忠實度分類構(gòu)建新語料庫,手動注釋Wizard-of-Wikipedia數(shù)據(jù)集。這些特定于忠實度的數(shù)據(jù)集可能比NLI數(shù)據(jù)集更好,因為NLI數(shù)據(jù)集的蘊涵或中性標簽與忠實度并不等同。例如,“普京是美國總統(tǒng)”這個假設可以被認為是中立于“普京是總統(tǒng)”這個前提的,也可以被認為是由“普京是總統(tǒng)”這個前提衍生出來的。然而,從忠實度的角度來看,假設包含了不支持的信息“美國”,這被認為是幻覺。
LM-based Metrics 這些指標利用兩種語言模型(LM)來確定是否支持每個token:無條件LM僅在數(shù)據(jù)集中的目標(真實引用)上進行訓練,而條件語言模型LM同時在源數(shù)據(jù)和目標數(shù)據(jù)上進行訓練。如果在強制路徑解碼過程中,無條件LM的損失小于條件LM,我們將生成的token分類為幻覺。產(chǎn)生幻覺的token與目標token總數(shù)的比值可以反映幻覺的程度。
3.人工評估
當前,幻覺自動評估在NLG中仍存在挑戰(zhàn)和不完善,因此人工評估仍是主要方法。人類評估主要包括評分和比較兩種形式。評估術(shù)語包括忠實、事實一致性、保真度等,用于判斷生成文本與源輸入是否一致。Chen等和Nie等[7]分別使用更細粒度的指標進行內(nèi)在和外在幻覺評估。此外,還有廣泛使用的指標如正確性、準確性和信息性。
四、幻覺緩解方法
根據(jù)幻覺的兩個主要因素,常見的緩解方法可分為兩類:數(shù)據(jù)相關方法和建模與推理方法。
1.數(shù)據(jù)相關
Building a Faithful Dataset 為避免數(shù)據(jù)噪音引發(fā)的錯覺,手動構(gòu)建忠實的數(shù)據(jù)集是一種有效方式。方法包括從頭開始編寫干凈目標或重寫網(wǎng)絡真實句子。修訂策略分為三步:刪除不支持源的短語、解決共同引用和刪除依賴語境的短語以及句法修飾使句子流暢。此外,有研究利用模型生成數(shù)據(jù)并標記幻覺,雖然主要用于診斷評估,但也可構(gòu)建忠實數(shù)據(jù)集。
Cleaning Data Automatically 為了緩解語義噪聲問題,一種方法是從平行語料庫中找到與輸入無關或矛盾的信息,然后對數(shù)據(jù)進行過濾或校正。這種方法適用于低或中等噪聲水平的情況。另外,一些工作已經(jīng)在實例級別處理了幻覺問題,方法是使用每個源引用對的分數(shù)并過濾掉產(chǎn)生幻覺的引用對。實例級分數(shù)可能導致信號丟失,因為單詞級別存在分歧。其他工作根據(jù)參考文獻校正配對訓練樣本,特別是輸入數(shù)據(jù),增強輸入和輸出之間的語義一致性。這種方法適用于數(shù)據(jù)到文本的任務,因為結(jié)構(gòu)化數(shù)據(jù)比話語更容易校正。
Information Augmentation 通過使用外部信息擴充輸入,可以獲得對源的更好表示。外部知識、顯式對齊、額外的訓練數(shù)據(jù)等可以增加源和目標之間的相關性,并幫助模型學習更好的任務相關特征。因此,更好的語義理解有助于緩解與源問題的分歧。增強信息的示例包括實體信息、關系三元組、預執(zhí)行運算結(jié)果、合成數(shù)據(jù)、檢索到的外部知識和類似訓練樣本。這些方法加強了輸入和輸出之間的一致性,但帶來了挑戰(zhàn),如原始來源和增強信息之間的差距、歧義話語和結(jié)構(gòu)化數(shù)據(jù)的語義差距以及結(jié)構(gòu)化知識圖和自然語言之間的格式差異。
2.建模和推理方法
架構(gòu)
Encoder編碼器學習將輸入文本轉(zhuǎn)化為固定長度的向量表示,但當模型對輸入缺乏語義解釋時,可能會出現(xiàn)幻覺。為解決這個問題,一些研究者修改了編碼器架構(gòu),使其與輸入更兼容,并學習更好的表示。例如,Huang等人和Cao[8]等人提出了一種雙編碼器,由順序文檔編碼器和結(jié)構(gòu)化圖編碼器組成,以處理額外的知識。
Attention 神經(jīng)網(wǎng)絡中的注意力機制被用于選擇性關注序列的部分內(nèi)容,忽略其他依賴關系。Aralikate等[9]通過源條件偏置引入短路來鼓勵生成器關注來源。Krishna等[10]采用稀疏注意力以改善模型的長期依賴性,減輕答案中的幻覺。Wu等[11]則通過誘導注意力注入預先建立的結(jié)構(gòu)信息來避免幻覺,消除無信息的注意力聯(lián)系。
Decoder 解碼器是自然語言處理中的關鍵組件,負責將輸入轉(zhuǎn)化為輸出。為減輕幻覺問題,研究者提出了多種解碼器結(jié)構(gòu),如多分支解碼器、不確定性感知解碼器和雙解碼器等。這些解碼器通過識別token間的隱含差異和依賴性或受顯式約束的限制,提高了生成忠實token的可能性,降低了產(chǎn)生幻覺的風險。然而,過度的約束可能會影響文本的流暢性和多樣性,因此需要在保持效果和提高流暢性之間找到平衡。
訓練
Planning/Sketching 規(guī)劃是控制和限制模型生成內(nèi)容的有效方法,可作為兩步生成器的一部分或注入到端到端模型中。與規(guī)劃類似的草圖也可用于處理幻覺問題,但框架被視為最終文本的一部分。這種方法在提供更多可控性的同時,需要在忠實性和多樣性之間找到平衡。
Reinforcement Learning (RL) Ranzato等人發(fā)現(xiàn),詞級最大似然訓練可能導致暴露偏差問題。為解決此問題,一些研究采用強化學習(RL)并設計不同的獎勵機制來優(yōu)化模型。Li等人提出槽一致性獎勵,通過減少模板中丟失或放錯槽值的幻覺現(xiàn)象來提高生成質(zhì)量。Mesgar等人則使用NLI模型獲得人格一致性子獎勵以減少對個人事實的幻覺。Huang等使用ROUGE和多項選擇填空分數(shù)的組合作為獎勵函數(shù),以提高總結(jié)輸出的可信度。
Multi-task Learning 多任務學習是一種訓練模型同時處理多個NLG任務的方法,旨在學習任務的共性以減少幻覺問題。這種問題源于模型對單一數(shù)據(jù)集的依賴,導致無法準確學習實際任務特征。通過添加適當?shù)母郊尤蝿眨鐔卧~對齊或蘊涵任務,可以提高模型的性能。多任務學習具有提高數(shù)據(jù)效率、減少過擬合和快速學習等優(yōu)點,但選擇合適的任務進行聯(lián)合學習是關鍵,同時也帶來了設計和優(yōu)化的挑戰(zhàn)。
Controllable Generation 當前工作將幻覺級別視為可控屬性,通過控制生成技術(shù)如重新采樣、手動或自動提供控制代碼來提高可信度。這種方法可能需要帶注釋的數(shù)據(jù)集進行訓練??紤]到幻覺可能帶來好處,可以調(diào)整可控方法以滿足不同應用需求。此外,正則化和損失重建等通用訓練方法也被提出以解決幻覺問題。
后處理
后處理方法能有效糾正輸出中的幻覺,尤其在有噪聲的數(shù)據(jù)集上表現(xiàn)出優(yōu)勢。這種方法通過先利用表現(xiàn)優(yōu)秀的模型生成結(jié)果,再進行提煉和校正,盡管可能產(chǎn)生不符合語法的文本,但允許研究人員用少量訓練數(shù)據(jù)專門提高準確性。
五、未來方向
在自然語言生成(NLG)及其下游任務的研究中,幻覺問題一直是學術(shù)界關注的焦點。我們已經(jīng)探討了許多衡量標準和緩解方法,旨在推動這些領域的發(fā)展。從更廣泛的角度來看,我們覺得下述指標設計和緩解方法方面的仍然存在著一些潛在的技術(shù)方向。
1.指標設計
細粒度度量(Fine-grained Metrics):為了精確識別幻覺子串,我們需要開發(fā)更細粒度的度量標準?,F(xiàn)有的一些指標,如基于問答的指標,無法精確定位單個幻覺子串,因此亟需改進。細粒度度量能夠提供更深入的見解,幫助研究人員區(qū)分內(nèi)在和外在幻覺。未來的研究可以探索自動分類方法,以進一步提高度量的準確性。
事實核查(Fact-Checking):對外在幻覺進行事實驗證是一個耗時且復雜的過程。利用自動事實核查系統(tǒng)來驗證外在幻覺,是未來的一個重要研究方向。在選擇證據(jù)的子任務中,如何從世界知識中檢索有效證據(jù)是一個關鍵問題。盡管有些研究嘗試將整個網(wǎng)絡作為知識來源,但確保網(wǎng)絡信息的可信度仍然是一個挑戰(zhàn)。未來研究應著重解決這些問題,以便更好地根據(jù)世界知識進行證據(jù)選擇。
泛化能力(Generalization):研究不同任務的源文本和輸出文本之間的關系,探索評估幻覺的通用指標,是一個值得深入的方向。開發(fā)具有跨領域魯棒性的任務無關度量標準,有助于建立統(tǒng)一的評估基準。構(gòu)建開源平臺,以便協(xié)作和標準化NLG任務的評估指標,也具有極其重要的意義。
融入人類認知視角(Incorporation of Human Cognitive Perspective):優(yōu)秀的自動度量標準應當與人類評估緊密相關。從人類認知的角度設計新指標,例如模擬人類識別重要信息并過濾其余信息的能力,將有助于提高自動檢測與人類判斷的相關性,從而進一步減輕幻覺并改進NLG系統(tǒng)。
2.緩解方法
數(shù)據(jù)預處理(Data Preprocessing):數(shù)據(jù)預處理是NLG中的關鍵環(huán)節(jié),但目前尚無適用于所有任務的通用方法。由于不同任務之間存在數(shù)據(jù)格式的差異,數(shù)據(jù)處理方法的選擇和應用仍面臨挑戰(zhàn)。開發(fā)通用且穩(wěn)健的數(shù)據(jù)預處理方法,將有助于減輕NLG中的幻覺問題。
數(shù)字建模(Digital Modeling):對于數(shù)字幻覺問題,數(shù)字的正確性對讀者至關重要。探索明確地對數(shù)字建模的方法,以減輕幻覺,是一個值得研究的方向。
區(qū)分內(nèi)在和外在幻覺(Differentiating Intrinsic and Extrinsic Hallucinations):研究內(nèi)在和外在幻覺的區(qū)別,并探索針對這兩種幻覺的不同緩解方法,是一個重要的研究領域。
長文本生成(Long Text Generation):在長文本生成任務中,減少自我矛盾是一個關鍵方向。引入推理能力,以提高生成文本的一致性和連貫性,是一個有趣的未來研究方向。
可控性(Controllability):模型應具備控制幻覺程度的能力,并在忠實性和多樣性之間找到平衡??煽匦允俏磥硌芯恐械囊粋€重要方面。
感謝您的閱讀,我們期待在未來的文章中繼續(xù)與您分享NLG領域的最新進展。
參考文獻
[1] MAYNEZ J, NARAYAN S, BOHNET B, et al. On Faithfulness and Factuality in Abstractive Summarization[C/OL]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Online. 2020. http://dx.doi.org/10.18653/v1/2020.acl-main.173. DOI:10.18653/v1/2020.acl-main.173
[2] DONG Y, WANG S, GAN Z, et al. Multi-Fact Correction in Abstractive Text Summarization[C/OL]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Online. 2020. http://dx.doi.org/10.18653/v1/2020.emnlp-main.749. DOI:10.18653/v1/2020.emnlp-main.749.
[3] LEBRET R, GRANGIER D, AULI M. Neural Text Generation from Structured Data with Application to the Biography Domain[C/OL]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Austin, Texas. 2016. http://dx.doi.org/10.18653/v1/d16-1128. DOI:10.18653/v1/d16-1128.
[4] DHINGRA B, FARUQUI M, PARIKH AnkurP, et al. Handling Divergent Reference Texts when Evaluating Table-to-Text Generation[J]. Cornell University - arXiv,Cornell University - arXiv, 2019.
[5] WANG Z, WANG X, AN B, et al. Towards Faithful Neural Table-to-Text Generation with Content-Matching Constraints[C/OL]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Online. 2020. http://dx.doi.org/10.18653/v1/2020.acl-main.101. DOI:10.18653/v1/2020.acl-main.101.
[6] GOYAL T, DURRETT G. Evaluating Factuality in Generation with Dependency-level Entailment.[J]. Cornell University - arXiv,Cornell University - arXiv, 2020.
[7] NIE F, YAO J G, WANG J, et al. A Simple Recipe towards Reducing Hallucination in Neural Surface Realisation[C/OL]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy. 2019. http://dx.doi.org/10.18653/v1/p19-1256. DOI:10.18653/v1/p19-1256.
[8] CAO Z, WEI F, LI W, et al. Faithful to the Original: Fact Aware Neural Abstractive Summarization[J/OL]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022. http://dx.doi.org/10.1609/aaai.v32i1.11912. DOI:10.1609/aaai.v32i1.11912.
[9] ARALIKATTE R, NARAYAN S, MAYNEZ J, et al. Focus Attention: Promoting Faithfulness and Diversity in Summarization[C/OL]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Online. 2021. http://dx.doi.org/10.18653/v1/2021.acl-long.474. DOI:10.18653/v1/2021.acl-long.474.
[10] KRISHNA K, ROY A, IYYER M. Hurdles to Progress in Long-form Question Answering[C/OL]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Online. 2021. http://dx.doi.org/10.18653/v1/2021.naacl-main.393. DOI:10.18653/v1/2021.naacl-main.393.
[11] WU Z, GALLEY M, BROCKETT C, et al. A Controllable Model of Grounded Response Generation[J/OL]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022: 14085-14093. http://dx.doi.org/10.1609/aaai.v35i16.17658. DOI:10.1609/aaai.v35i16.17658.
本文轉(zhuǎn)載自 ??AI遇見云??,作者: 錢博文
