自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

模型偏好只與大小有關(guān)?上交大全面解析人類與32種大模型偏好的定量組分

人工智能 新聞
上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室(GAIR)發(fā)布了一項(xiàng)新研究成果,對人類用戶與多達(dá) 32 種流行的大語言模型所展現(xiàn)出的偏好進(jìn)行了系統(tǒng)性的全面解析,以了解不同來源的偏好數(shù)據(jù)是如何由各種預(yù)定義屬性(如無害,幽默,承認(rèn)局限性等)定量組成的。

在目前的模型訓(xùn)練范式中,偏好數(shù)據(jù)的的獲取與使用已經(jīng)成為了不可或缺的一環(huán)。在訓(xùn)練中,偏好數(shù)據(jù)通常被用作對齊(alignment)時(shí)的訓(xùn)練優(yōu)化目標(biāo),如基于人類或 AI 反饋的強(qiáng)化學(xué)習(xí)(RLHF/RLAIF)或者直接偏好優(yōu)化(DPO),而在模型評(píng)估中,由于任務(wù)的復(fù)雜性且通常沒有標(biāo)準(zhǔn)答案,則通常直接以人類標(biāo)注者或高性能大模型(LLM-as-a-Judge)的偏好標(biāo)注作為評(píng)判標(biāo)準(zhǔn)。

盡管上述對偏好數(shù)據(jù)的應(yīng)用已經(jīng)取得了廣泛的成效,但對偏好本身則缺乏充足的研究,這很大程度上阻礙了對更可信 AI 系統(tǒng)的構(gòu)建。為此,上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室(GAIR)發(fā)布了一項(xiàng)新研究成果,對人類用戶與多達(dá) 32 種流行的大語言模型所展現(xiàn)出的偏好進(jìn)行了系統(tǒng)性的全面解析,以了解不同來源的偏好數(shù)據(jù)是如何由各種預(yù)定義屬性(如無害,幽默,承認(rèn)局限性等)定量組成的。

進(jìn)行的分析有如下特點(diǎn):

  • 注重真實(shí)應(yīng)用:研究中采用的數(shù)據(jù)均來源于真實(shí)的用戶 - 模型對話,更能反映實(shí)際應(yīng)用中的偏好。
  • 分場景建模:對屬于不同場景下的數(shù)據(jù)(如日常交流,創(chuàng)意寫作)獨(dú)立進(jìn)行建模分析,避免了不同場景之間的互相影響,結(jié)論更清晰可靠。
  • 統(tǒng)一框架:采用了一個(gè)統(tǒng)一的框架解析人類與大模型的偏好,并且具有良好的可擴(kuò)展性。

該研究發(fā)現(xiàn):

  • 人類用戶對模型回復(fù)中錯(cuò)誤之處的敏感度較低,對承認(rèn)自身局限導(dǎo)致拒絕回答的情況有明顯的厭惡,且偏好那些支持他們主觀立場的回復(fù)。而像 GPT-4-Turbo 這樣的高級(jí)大模型則更偏好于那些沒有錯(cuò)誤,表達(dá)清晰且安全無害的回復(fù)。
  • 尺寸接近的大模型會(huì)展現(xiàn)出相似的偏好,而大模型對齊微調(diào)前后幾乎不會(huì)改變其偏好組成,僅僅會(huì)改變其表達(dá)偏好的強(qiáng)度。
  • 基于偏好的評(píng)估可以被有意地操縱。鼓勵(lì)待測模型以評(píng)估者喜歡的屬性進(jìn)行回復(fù)可以提高得分,而注入最不受歡迎的屬性則會(huì)降低得分。

圖 1:人類,GPT-4-Turbo 與 LLaMA-2-70B-Chat 在 “日常交流” 場景下的偏好解析結(jié)果,數(shù)值越大代表越偏好該屬性,而小于 50 則表示對該屬性的厭惡。

本項(xiàng)目已經(jīng)開源了豐富的內(nèi)容與資源:

  • 可交互式演示:包含了所有分析的可視化及更多論文中未詳盡展示的細(xì)致結(jié)果,同時(shí)也支持上傳新的模型偏好以進(jìn)行定量分析。
  • 數(shù)據(jù)集:包含了本研究中所收集的用戶 - 模型成對對話數(shù)據(jù),包括來自真實(shí)用戶以及多達(dá) 32 個(gè)大模型的偏好標(biāo)簽,以及針對所定義屬性的詳細(xì)標(biāo)注。
  • 代碼:提供了收集數(shù)據(jù)所采用的自動(dòng)標(biāo)注框架及其使用說明,此外也包括了用于可視化分析結(jié)果的代碼。

  • 論文:https://arxiv.org/abs/2402.11296
  • 演示:https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization
  • 代碼:https://github.com/GAIR-NLP/Preference-Dissection
  • 數(shù)據(jù)集:https://huggingface.co/datasets/GAIR/preference-dissection
方法介紹

該研究收集了來自 ChatbotArena Conversations 數(shù)據(jù)集中大量來自真實(shí)應(yīng)用中的成對用戶 - 模型對話數(shù)據(jù)。每個(gè)樣本點(diǎn)由一個(gè)用戶問詢與兩個(gè)不同的模型回復(fù)組成。研究者們首先收集了人類用戶與不同大模型在這些樣本上的偏好標(biāo)簽,其中人類用戶的標(biāo)簽已經(jīng)包含在所選用的原始數(shù)據(jù)集內(nèi),而 32 個(gè)選用的開源或閉源的大模型的標(biāo)簽則由研究者額外進(jìn)行推理與收集。

該研究首先構(gòu)建了一套基于 GPT-4-Turbo 的自動(dòng)標(biāo)注框架,為所有的模型回復(fù)標(biāo)注了它們在預(yù)先定義的 29 個(gè)屬性上的得分,隨后基于一對得分的比較結(jié)果可以得到樣本點(diǎn)在每個(gè)屬性上的 “比較特征”,例如回復(fù) A 的無害性得分高于回復(fù) B,則該屬性的比較特征為 + 1,反之則為 - 1,相同時(shí)為 0。

利用所構(gòu)建的比較特征與收集到的二元偏好標(biāo)簽,研究者們可以通過擬合貝葉斯線性回歸模型的方式,以建模比較特征到偏好標(biāo)簽之間的映射關(guān)系,而擬合得到的模型中對應(yīng)于每個(gè)屬性的模型權(quán)重即可被視作該屬性對于總體偏好的貢獻(xiàn)程度。

由于該研究收集了多種不同來源的偏好標(biāo)簽,并進(jìn)行了分場景的建模,因而在每個(gè)場景下,對于每個(gè)來源(人類或特定大模型),都能夠得到一組偏好到屬性的定量分解結(jié)果。

圖 2:分析框架的總體流程示意圖

分析結(jié)果

該研究首先分析比較了人類用戶與以 GPT-4-Turbo 代表的高性能大模型在不同場景下最偏好與最不偏好的三個(gè)屬性。可以看出,人類對錯(cuò)誤的敏感程度顯著低于 GPT-4-Turbo,且厭惡承認(rèn)局限性而拒絕回答的情形。此外,人類也對迎合自己主觀立場的回復(fù)表現(xiàn)出明顯的偏好,而并不關(guān)心回復(fù)中是否糾正了問詢中潛在的錯(cuò)誤。與之相反,GPT-4-Turbo 則更注重回復(fù)的正確性,無害性與表達(dá)的清晰程度,并且致力于對問詢中的模糊之處進(jìn)行澄清。

圖 3:人類與 GPT-4-Turbo 在不同場景或問詢滿足的前提下最偏好與最不偏好的三個(gè)屬性

圖片

圖 4:人類與 GPT-4-Turbo 對于輕微 / 適中 / 嚴(yán)重程度的錯(cuò)誤的敏感程度,值接近 50 代表不敏感。

此外,該研究還探索了不同大模型之間的偏好組分的相似程度。通過將大模型劃分為不同組并分別計(jì)算組內(nèi)相似度與組間相似度,可以發(fā)現(xiàn)當(dāng)按照參數(shù)量(<14B 或 > 30B)進(jìn)行劃分時(shí),組內(nèi)相似度(0.83,0.88)明顯高于組間相似度(0.74),而按照其他因素劃分時(shí)則沒有類似的現(xiàn)象,表明大模型的偏好很大程度上決定于其尺寸,而與訓(xùn)練方式無關(guān)。

圖 5:不同大模型(包括人類)之間偏好的相似程度,按參數(shù)量排列。

另一方面,該研究也發(fā)現(xiàn)經(jīng)過對齊微調(diào)后的大模型表現(xiàn)出的偏好與僅經(jīng)過預(yù)訓(xùn)練的版本幾乎一致,而變化僅發(fā)生在表達(dá)偏好的強(qiáng)度上,即對齊后的模型輸出兩個(gè)回復(fù)對應(yīng)候選詞 A 與 B 的概率差值會(huì)顯著增加。

圖 6:大模型在對齊微調(diào)前后的偏好變化情況

最后,該研究發(fā)現(xiàn),通過將人類或大模型的偏好定量分解到不同的屬性,可以對基于偏好的評(píng)估結(jié)果進(jìn)行有意地操縱。在目前流行的 AlpacaEval 2.0 與 MT-Bench 數(shù)據(jù)集上,通過非訓(xùn)練(設(shè)置系統(tǒng)信息)與訓(xùn)練(DPO)的方式注入評(píng)估者(人類或大模型)的偏好的屬性均可顯著提升分?jǐn)?shù),而注入不受偏好的屬性則會(huì)降低得分。

圖 7:對 MT-Bench 與 AlpacaEval 2.0 兩個(gè)基于偏好評(píng)估的數(shù)據(jù)集進(jìn)行有意操縱的結(jié)果

總結(jié)

本研究詳細(xì)分析了人類和大模型偏好的量化分解。研究團(tuán)隊(duì)發(fā)現(xiàn)人類更傾向于直接回答問題的回應(yīng),對錯(cuò)誤不太敏感;而高性能大模型則更重視正確性、清晰性和無害性。研究還表明,模型大小是影響偏好組分的一個(gè)關(guān)鍵因素,而對其微調(diào)則影響不大。此外,該研究展示了當(dāng)前若干數(shù)據(jù)集在了解評(píng)估者的偏好組分后易被操縱,表明了基于偏好評(píng)估的不足。研究團(tuán)隊(duì)還公開了所有研究資源,以支持未來的進(jìn)一步研究。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-02-02 21:42:41

2023-08-22 13:21:07

AI算法

2025-03-13 09:47:29

2025-04-15 08:44:43

2024-06-05 09:59:13

2024-03-05 09:00:00

大型語言模型Mistral-7b人工智能

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)

2024-10-23 09:00:00

2017-08-07 11:09:19

機(jī)器學(xué)習(xí)用戶推薦轉(zhuǎn)化率

2010-08-04 14:34:35

Flex編程模型

2024-08-15 15:20:00

模型生成

2023-10-20 12:17:57

AI數(shù)據(jù)

2025-03-06 07:28:31

DeepSeek大模型人工智能

2015-02-28 10:26:54

JMP

2024-09-03 17:43:54

2025-03-13 10:18:42

2010-06-11 14:46:09

UML模型

2024-05-27 08:40:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)