自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LeCun力薦!進化算法淘汰77%低質(zhì)數(shù)據(jù):RIP方法讓模型性能狂飆60%

人工智能 新聞
近日,Meta等機構(gòu)發(fā)表的論文介紹了一種通過進化算法構(gòu)造高質(zhì)量數(shù)據(jù)集的方法:拒絕指令偏好(RIP),得到了Yann LeCun的轉(zhuǎn)贊。相比未經(jīng)過濾的數(shù)據(jù),使用RIP構(gòu)建的數(shù)據(jù)集讓模型在多個基準(zhǔn)測試中都實現(xiàn)了顯著提升。

在LLM的開發(fā)中,推動模型進步的主要驅(qū)動力是精心挑選高質(zhì)量的訓(xùn)練示例。雖然Scaling Law的確能實現(xiàn)「力大磚飛」,但僅僅增加數(shù)據(jù)量并不能保證模型性能的提升,數(shù)據(jù)的質(zhì)量才是關(guān)鍵。低質(zhì)量的數(shù)據(jù)可能會引入噪聲,影響模型的訓(xùn)練效果。

那么,有什么方法能自動篩選出,甚至是自動創(chuàng)建出高質(zhì)量又兼具多樣性的數(shù)據(jù)集?

最近,Meta、UC伯克利、NYU等機構(gòu)的學(xué)者提出了一種最新方法,簡稱RIP,讓低質(zhì)量數(shù)據(jù)「一路走好」的同時,也是在暗示——只有成功存活下來的數(shù)據(jù)才是高質(zhì)量的數(shù)據(jù)。

圖片

論文地址:https://arxiv.org/abs/2501.18578

受到進化算法的啟發(fā),RIP在Alpacaeval2、Arena-Hard、Wildbench等多個有影響力的基準(zhǔn)上實現(xiàn)了大幅提升,獲得了LeCun的轉(zhuǎn)贊。

圖片

RIP方法概述

拒絕指令偏好(RIP)的基礎(chǔ)是兩個核心假設(shè)。

第一個假設(shè)是,低質(zhì)量prompt很可能產(chǎn)生低質(zhì)量響應(yīng)。具體來說,那些意義不明確、模糊或包含沖突信息的提示詞,很可能導(dǎo)致嘈雜或不準(zhǔn)確的模型響應(yīng)。這些提示詞不應(yīng)該作為之后用于指令微調(diào)(SFT)的訓(xùn)練數(shù)據(jù)。

第二個假設(shè)是,低質(zhì)量prompt很可能產(chǎn)生具有更大差異的響應(yīng)。

低質(zhì)量prompt會引入不確定性和模糊性,可能存在多種解釋,因此LLM可能會猜測或填補提示詞中的空白,這導(dǎo)致多次響應(yīng)之間的差異性更高。雖然其中一些響應(yīng)可能與prompt的原始意圖一致,但其他響應(yīng)可能顯著偏離。

從這一點上進行逆向思考,我們就可以將模型多次響應(yīng)的方差視為評估提示詞質(zhì)量的指標(biāo)。方差越小,表明提示詞的質(zhì)量更高。

基于上述兩個假設(shè),RIP方法就可以測量被拒絕的響應(yīng)質(zhì)量(下圖m_1),以及被選擇和被拒絕的響應(yīng)之間的獎勵差距(reward gap,下圖m_3),從而評估數(shù)據(jù)的完整性。

圖片

上圖中定義的3個關(guān)鍵指標(biāo)分別有如下含義:

m_1:被拒絕響應(yīng)的的質(zhì)量。

m_2:被拒絕響應(yīng)的長度,較長的被拒絕響應(yīng)可能意味著提示更復(fù)雜或更模糊。

m_3:被選擇與被拒絕響應(yīng)之間的獎勵差距,較小的差距可能表明提示更清晰、更具體。

基于這種方法,RIP可以用于篩選、構(gòu)建高質(zhì)量數(shù)據(jù)集。給定一組提示詞X={x} ,RIP旨在找到一個子集S?X ,S可用于微調(diào)大模型?

RIP如同設(shè)定一個優(yōu)勝劣汰的提示詞斗獸場,提示詞對應(yīng)的響應(yīng)要么獲勝(被選擇),要么失敗(被拒絕)。響應(yīng)對及其獎勵可以來自人類偏好數(shù)據(jù),也可以由模型本身?生成,然后使用其它大模型進行評分。

除了過濾現(xiàn)有訓(xùn)練集,RIP也可以用于構(gòu)建高質(zhì)量合成數(shù)據(jù)集。

用于生成合成數(shù)據(jù)時,首先篩選出一組高質(zhì)量的提示作為種子池,然后使用這些種子提示詞作為少量樣本,引導(dǎo)模型生成新的提示詞。

這些新生成的提示詞可以進一步通過RIP進行篩選,以確保合成數(shù)據(jù)的質(zhì)量,這種方法被稱為Self-RIP。

實驗結(jié)果與分析

RIP在多個實驗中都取得了顯著的性能提升,尤其是在人類編寫的提示上,表現(xiàn)出了顯著的優(yōu)勢。

例如,在包含超過25萬條人工編寫提示詞的WildChat數(shù)據(jù)集上,通過Llama 3.1-405B-Instruct評估響應(yīng)的質(zhì)量,為每個回答需進行 10 次獨立評估,每次給出0到10分的評分,并使用平均分作為最終獎勵。

如下表所示,RIP只需要不到一半的訓(xùn)練樣本,就能在多個指標(biāo)上實現(xiàn)顯著提升。

圖片

使用RIP過濾出高質(zhì)量的提示詞后,RIP顯著提高了Llama3.1-8B-Instruct DPO基線的性能。

在更大參數(shù)的模型上,RIP同樣有效。過濾顯著提升了Llama 3.3-70B-Instruct模型的性能,AlpacaEval2 LC勝率從38.9提升至67.7,Arena Hard從67.5提升至82.9,WildBench從52.8提升至58.8。

圖片

這些結(jié)果表明,RIP能夠有效地篩選出高質(zhì)量的提示,從而提升模型的性能。

應(yīng)Self-RIP方法 ,基于少樣本生成而不進行后過濾得到20k大小的數(shù)據(jù)集,可以讓模型在AlpacaEval2上的LC勝率從 48.4%提高到53.6%,Arena-Hard勝率從37.9%提高到43.7%,以及在WildBench上的WB-Score從41.5提高到44.8。這進一步說明了在高質(zhì)量指令上訓(xùn)練的重要性。

圖片

當(dāng)應(yīng)用完整的Self-RIP方法并使用后過濾(post-filtering)時,訓(xùn)練效果進一步改善,實現(xiàn)了最佳的AlpacaEval2 LC勝率60.2%。

RIP在與其他篩選方法的比較中也表現(xiàn)出色。與基于提示的篩選方法(如InsTag Diversity/Difficulty Filtering)相比,RIP在所有基準(zhǔn)測試中都取得了更高的分?jǐn)?shù)。

此外,與基于提示和選擇響應(yīng)的篩選方法(如PPL和IFD)相比,RIP也表現(xiàn)出更好的性能。這些結(jié)果表明,RIP在篩選提示時考慮了更多的因素,從而能夠更準(zhǔn)確地評估提示的質(zhì)量。

圖片

圖1:不同訓(xùn)練數(shù)據(jù)大小下,使用RIP及self-RIP之后的模型訓(xùn)練效果提升。

總體來看,RIP借鑒進化算法,為LLM的訓(xùn)練提供了一種簡單卻新穎的思路。相比人類編寫的和模型生成的提示詞,使用RIP過濾后的提示詞集合,在進行指令微調(diào)后,模型性能有顯著提升。

未來的研究可以在此基礎(chǔ)上進行進一步的探索和改進。例如,可以研究如何優(yōu)化評估模型,以提高其對響應(yīng)質(zhì)量的評估準(zhǔn)確性;可以探索如何降低RIP方法的計算成本,使其更適合大規(guī)模數(shù)據(jù)的處理;還可以研究進行安全性評估——探索使用RIP進行安全性過濾,在現(xiàn)有系統(tǒng)中構(gòu)建專門用于安全性的獎勵模型。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-01-09 12:58:21

PC性能NVIDIA

2010-08-06 11:50:05

RIP協(xié)議

2018-05-14 12:30:37

數(shù)據(jù)驅(qū)動算法優(yōu)化

2024-03-25 11:37:40

機器學(xué)習(xí)人工智能進化算法

2022-01-21 15:33:56

架構(gòu)模型AI

2023-02-09 15:28:19

鴻蒙編譯速度

2024-03-27 13:34:00

模型訓(xùn)練

2023-08-24 14:23:00

AI智能

2014-08-06 10:29:22

CA Technolo移動

2011-09-06 13:36:41

Vista

2023-02-21 16:28:12

Transforme模型

2024-10-29 21:01:44

2024-11-26 09:30:00

模型算法

2023-04-03 14:47:12

GPT-4科研

2023-10-04 10:00:12

模型算法

2021-03-01 18:42:02

緩存LRU算法

2024-12-09 07:15:00

世界模型AILLM

2024-04-08 13:29:52

2024-02-28 08:20:25

推薦系統(tǒng)大模型ChatGPT
點贊
收藏

51CTO技術(shù)棧公眾號