自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

六大維度,LLM「問題生成」首次正面PK人類!伯克利等發(fā)布最新研究

人工智能 新聞
研究人員首次探討了大型語言模型(LLMs)在問題生成任務(wù)中的表現(xiàn),與人類生成的問題進(jìn)行了多維度對(duì)比,結(jié)果發(fā)現(xiàn)LLMs傾向于生成需要較長描述性答案的問題,且在問題生成中對(duì)上下文的關(guān)注更均衡。

長期以來,問題生成(Question Generation)任務(wù)都是根據(jù)「給定事實(shí)」來編寫各種相關(guān)問題,已經(jīng)發(fā)展出了很多自動(dòng)化的方法。

大型語言模型(LLM)的興起,極大提升了各種自然語言處理(NLP)任務(wù)的性能,其中也包括問題生成,雖然應(yīng)用廣泛,但還沒有研究討論過「用LLMs生成問題的特點(diǎn)」。

圖片

沒有額外提示約束時(shí),LLMs是更傾向于生成較長還是較短的問題?傾向于問什么類型的問題?LLMs生成的問題與人類編寫的問題又有哪些不同?

最近,加州大學(xué)伯克利分校、阿卜杜勒阿齊茲國王科技城、華盛頓大學(xué)的研究人員提出了一種基于LLMs的自動(dòng)化評(píng)估方法,重點(diǎn)關(guān)注問題的長度、類型、上下文覆蓋范圍和可回答性等維度,結(jié)果發(fā)現(xiàn)LLMs傾向于生成需要描述性、較長答案的問題;

常見的問答任務(wù)中,人類更傾向于選擇文章的開始結(jié)束位置生成問題,LLMs對(duì)整個(gè)上下文的關(guān)注更加均衡。

圖片

論文鏈接:https://arxiv.org/pdf/2501.03491

雖然已經(jīng)有研究通過實(shí)證來評(píng)估人類一致性,但還沒有將LLMs生成問題的質(zhì)量標(biāo)準(zhǔn)與人類生成問題進(jìn)行對(duì)比。

這篇文章首次揭示了LLMs在問題生成中的偏好,通過引入自動(dòng)評(píng)估流程,擴(kuò)展了現(xiàn)有的統(tǒng)計(jì)問題質(zhì)量標(biāo)準(zhǔn),研究發(fā)現(xiàn)為評(píng)估下游應(yīng)用(如RAG系統(tǒng)和幻覺檢測(cè))的提示工程優(yōu)化提供了經(jīng)驗(yàn),可以防止在不當(dāng)情境下的濫用,更深入地了解LLMs在問題生成中的行為傾向。

生成流程與指標(biāo)

從上下文中生成問題

問題的輸入包括:一個(gè)段落文本作為上下文C,一個(gè)問題生成指令提示P;大模型M的輸出為N個(gè)問題Q,其中每個(gè)問題都可以用上下文中的事實(shí)來回答。

不能直接使用LLM進(jìn)行問題生成:問題假定讀者對(duì)上下文的某個(gè)特定范圍很熟悉;生成的問題可能沒有標(biāo)準(zhǔn)答案;有些問題直接引用了上下文,如果沒有上下文就無法回答。

所以研究人員設(shè)計(jì)了一段提示詞:

You are to generate [N] self-contained short answer questions based on the facts mentioned in the following content. Avoid questions that reference the content directly. Each question should include all relevant context and directly name any referenced items, avoiding pronouns like "it," "the game," or "the person." Do not include phrases that reference the source or context, such as "mentioned in the article" or "according to the text." Provide the questions in an ordered list.

你需要根據(jù)以下內(nèi)容中提到的事實(shí)生成[N]個(gè)自成一體的簡短答案問題。避免直接引用內(nèi)容的問題。每個(gè)問題都應(yīng)包含所有相關(guān)的上下文,并直接提及任何被引用的項(xiàng)目,避免使用「它」「這款游戲」或「這個(gè)人」等代詞。不要包含引用來源或上下文的短語,如「文章中提到的」或「根據(jù)文本」。將問題以有序列表的形式提供。

為了構(gòu)建上下文C,研究人員將WikiText數(shù)據(jù)集分割成86萬個(gè)段落,同時(shí)保留章節(jié)結(jié)構(gòu)作為元數(shù)據(jù);在過濾掉過短的段落并清理特殊字符后,通過整合段落文本并附加相關(guān)章節(jié)標(biāo)題來組成上下文。

圖片

該流程類似于HotpotQA的先上下文后問題的方法,眾包人員根據(jù)維基百科的多個(gè)證據(jù)段落生成問題;作為對(duì)比,TriviaQA是一個(gè)由知識(shí)競賽愛好者編纂的問答數(shù)據(jù)集,標(biāo)注人員根據(jù)問題在文章中尋找證據(jù)。

與答案無關(guān)的評(píng)估指標(biāo)

問題類型

對(duì)于人類來說,選擇提出哪種問題是主觀的,研究人員探索了在沒有額外約束的情況下LLMs能夠生成的問題類型,分析了十個(gè)手動(dòng)定義類別的問題類型(通過觀察HotpotQA、TriviaQA和論文數(shù)據(jù)集中的混合問題得到),并將其與人類的偏好進(jìn)行比較。

問題長度

長度是生成問題的一個(gè)直觀統(tǒng)計(jì)指標(biāo),研究人員主要統(tǒng)計(jì)單詞數(shù)量;除了直接比較人類生成和LLMs生成數(shù)據(jù)集中的問題長度外,還考察了問題長度與問題類型之間的關(guān)系。

下文覆蓋范圍

一個(gè)問題可能需要跨多個(gè)句子進(jìn)行推理,研究人員擴(kuò)展了基于提示的句子級(jí)測(cè)量方法,還研究了單詞級(jí)上下文覆蓋范圍;分析了在生成過程中LLMs傾向于關(guān)注上下文的哪些具體部分。

結(jié)果可以看到,問題生成并不遵循之前研究中討論問答中的類似位置偏差。

與答案有關(guān)的評(píng)估指標(biāo)

圖片

可回答性(Answerability)

問題的關(guān)鍵質(zhì)量標(biāo)準(zhǔn)是,在給定特定知識(shí)的情況下,是否能夠被精確回答,即在提供上下文時(shí),生成的問題應(yīng)該是可回答的。

研究人員提示LLMs使用給定的上下文作為輸入來生成答案;由于答案的正確性也是基于相同的上下文來評(píng)估的,因此在大多數(shù)情況下,生成的問題都是可回答的。

非常見性(Uncommonness)

LLMs的預(yù)訓(xùn)練數(shù)據(jù)基于互聯(lián)網(wǎng)上廣泛可用的常識(shí),即使沒有明確提供上下文,LLMs仍然可能回答問題。

與可回答性評(píng)估相比,關(guān)鍵區(qū)別在于在答案生成過程中省略了上下文,而其他因素保持不變;結(jié)果也可以看到,去除上下文會(huì)顯著降低答案質(zhì)量,也表明,生成的問題對(duì)于評(píng)估RAG系統(tǒng)或進(jìn)行自動(dòng)幻覺測(cè)試很有價(jià)值。

所需答案長度(Required answer length)

除了問題長度外,所需答案的長度也是衡量問題信息量的有效的指標(biāo)。

由于生成模型的特性,生成的答案往往更長,包含更多細(xì)節(jié);為了從帶有上下文生成的答案中篩選出不必要的信息,研究人員使用了兩種策略來測(cè)量答案的基本長度:1)要求模型生成的文字答案最短;2)設(shè)置生成字?jǐn)?shù)限制。

結(jié)果顯示,該方法可以用更少的字?jǐn)?shù)實(shí)現(xiàn)相同的質(zhì)量評(píng)級(jí),并顯著降低答案長度,第二種策略通常來說更好。

實(shí)驗(yàn)結(jié)果

研究人員使用兩個(gè)具有代表性的大型語言模型(LLMs)進(jìn)行評(píng)估:閉源的GPT-4o和開源的LLaMA-3.1-70b-Instruct,每個(gè)模型都使用相同的256個(gè)采樣的維基百科上下文(N=4)生成1024個(gè)問題;大約使用了5萬次聊天調(diào)用。

在答案評(píng)分方面,人工標(biāo)注與GPT-4o評(píng)估之間的平均皮爾遜相關(guān)系數(shù)為0.77,表明存在很強(qiáng)的正線性相關(guān)性。

LLMs會(huì)提什么類型的問題?

根據(jù)預(yù)定義的問題類型,研究人員將其分為三組:LLaMA和GPT模型都強(qiáng)烈傾向于詢問具體的事實(shí)和數(shù)字,可能與訓(xùn)練數(shù)據(jù)的分布有關(guān);不太容易提出的問題是根據(jù)上下文中的多個(gè)事實(shí)進(jìn)行推理,與HotpotQA更相似;大模型也更傾向于詢問描述類、需要詳細(xì)答案的問題,這種偏好也導(dǎo)致了答案更長。

圖片

生成的問題有多長?

盡管整體的問題長度大致相似,約為20個(gè)單詞,但不同的LLMs傾向于表現(xiàn)出對(duì)長度的不同偏好;人類生成的問題長度變化更大。

圖片

使用了多少上下文以及具體是哪部分?

人類生成的問題傾向于覆蓋更多的上下文,無論是句子級(jí)還是單詞級(jí)測(cè)量結(jié)果都是一致的。

圖片

人類生成的問題傾向于集中在上下文的開頭,但LLMs生成的問題呈現(xiàn)出更均衡的分布,表明基于LLMs的問題生成與問答相比顯示出幾乎相反的位置關(guān)注焦點(diǎn)。

圖片

生成的問題是否可以在有/無上下文的情況下回答?

通過結(jié)合答案生成和評(píng)分,可以觀察到,在有上下文的情況下,LLMs通常能生成令人滿意的答案,符合預(yù)期。

圖片

當(dāng)不提供上下文時(shí),性能會(huì)下降,大約四分之一的生成問題無法得到合適的回答,GPT-4o生成的問題與人類構(gòu)建的HotpotQA數(shù)據(jù)集相比,顯示出更高比例的非常見問題。

回答問題需要多少信息?

LLMs生成的答案通常比人類標(biāo)注的正確答案要長得多,可能是因?yàn)樯赡P偷奶匦浴?/span>

圖片

為了更準(zhǔn)確地衡量所需信息量,將LLMs生成的答案壓縮,在保持評(píng)分的情況下生成最短版本。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-12-18 07:20:00

2025-04-30 09:09:00

2022-03-28 13:25:42

AI扶貧機(jī)器之心

2023-04-03 10:28:53

人工智能機(jī)器人

2023-12-16 09:49:18

2023-05-26 17:20:29

模型工具

2024-11-26 13:40:00

2023-05-04 14:55:02

模型AI

2024-09-23 14:46:27

2023-11-14 07:47:42

IGN擴(kuò)散模型

2023-05-19 13:34:02

2025-01-22 15:21:00

2024-03-26 15:43:00

訓(xùn)練數(shù)據(jù)機(jī)器人

2022-07-15 14:57:43

AI語言

2022-01-27 09:47:12

計(jì)算機(jī)MIT

2023-04-04 13:17:00

GPUCMU開源

2024-02-05 13:28:14

AI音頻虛擬人像

2023-04-07 09:28:31

模型訓(xùn)練

2012-05-23 11:31:09

瀏覽器帳號(hào)管理

2024-02-19 13:46:04

多模態(tài)信息LWMtoken
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)