自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

當(dāng)LLM學(xué)會(huì)左右互搏,基礎(chǔ)模型或?qū)⒂瓉?lái)集體進(jìn)化

人工智能 新聞
進(jìn)入現(xiàn)今的大模型 (LLM) 時(shí)代,又有研究者發(fā)現(xiàn)了左右互搏的精妙用法!近日,加利福尼亞大學(xué)洛杉磯分校的顧全全團(tuán)隊(duì)提出了一種新方法 SPIN(Self-Play Fine-Tuning),可不使用額外微調(diào)數(shù)據(jù),僅靠自我博弈就能大幅提升 LLM 的能力。

金庸武俠小說中有一門武學(xué)絕技:左右互搏;乃是周伯通在桃花島的地洞里苦練十余年所創(chuàng)武功,初期想法在于左手與右手打架,以自?shī)首詷贰6@種想法不僅能用來(lái)練武功,也能用來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,比如前些年風(fēng)靡一時(shí)的生成對(duì)抗網(wǎng)絡(luò)(GAN)。

進(jìn)入現(xiàn)今的大模型 (LLM) 時(shí)代,又有研究者發(fā)現(xiàn)了左右互搏的精妙用法!近日,加利福尼亞大學(xué)洛杉磯分校的顧全全團(tuán)隊(duì)提出了一種新方法 SPIN(Self-Play Fine-Tuning),可不使用額外微調(diào)數(shù)據(jù),僅靠自我博弈就能大幅提升 LLM 的能力。顧全全教授表示:「授之以魚不如授之以漁:通過自我博弈微調(diào) (SPIN) 可以讓所有大模型達(dá)到從弱到強(qiáng)的提升!」

圖片

這項(xiàng)研究也在社交網(wǎng)絡(luò)引起了不少討論,比如賓夕法尼亞大學(xué)沃頓商學(xué)院的 Ethan Mollick 教授就表示:「更多證據(jù)表明,AI 不會(huì)受限于可供其訓(xùn)練的人類創(chuàng)造內(nèi)容的數(shù)量。這篇論文再次表明使用 AI 創(chuàng)造的數(shù)據(jù)訓(xùn)練 AI 可以比僅使用人類創(chuàng)造的數(shù)據(jù)獲得更高質(zhì)量的結(jié)果?!?/span>

圖片

此外,還有許多研究人員對(duì)這一方法感到興奮,并對(duì) 2024 年在相關(guān)方向的進(jìn)展表現(xiàn)出極大期待。顧全全教授向機(jī)器之心表示:「如果你希望訓(xùn)練一個(gè)超越 GPT-4 的大模型,這是一項(xiàng)絕對(duì)值得嘗試的技術(shù)?!?/span>

圖片

論文地址:https://arxiv.org/pdf/2401.01335.pdf

大型語(yǔ)言模型(LLM)開啟了通用人工智能(AGI)的大突破時(shí)代,它能以非凡的能力解決需要復(fù)雜推理和專業(yè)知識(shí)的廣泛任務(wù)。LLM 擅長(zhǎng)的領(lǐng)域包括數(shù)學(xué)推理 / 問題求解、代碼生成 / 編程、文本生成、摘要和創(chuàng)意寫作等等。

LLM 的一大關(guān)鍵進(jìn)步是訓(xùn)練之后的對(duì)齊過程,這能讓模型的行為更符合需求,但這個(gè)過程卻往往依賴于成本高昂的人類標(biāo)注數(shù)據(jù)。經(jīng)典的對(duì)齊方法包括基于人類演示的監(jiān)督式微調(diào)(SFT)和基于人類偏好反饋的強(qiáng)化學(xué)習(xí)(RLHF)。

而這些對(duì)齊方法全都需要大量人類標(biāo)注數(shù)據(jù)。因此,為了精簡(jiǎn)對(duì)齊過程,研究人員希望開發(fā)出能有效利用人類數(shù)據(jù)的微調(diào)方法。

這也是這項(xiàng)研究的目標(biāo):開發(fā)出新的微調(diào)方法,使得微調(diào)后的模型可以繼續(xù)變強(qiáng),而且這個(gè)微調(diào)過程無(wú)需使用微調(diào)數(shù)據(jù)集之外的人類標(biāo)注數(shù)據(jù)。

實(shí)際上,機(jī)器學(xué)習(xí)社區(qū)一直都很關(guān)注如何在不使用額外訓(xùn)練數(shù)據(jù)的情況下將弱模型提升成強(qiáng)模型,這方面的研究甚至可以追溯至 boosting 算法。也有研究表明,自訓(xùn)練算法可以在混合模型中將弱學(xué)習(xí)器轉(zhuǎn)換成強(qiáng)學(xué)習(xí)器,而無(wú)需額外的標(biāo)注數(shù)據(jù)。但是,要在沒有外部引導(dǎo)的前提下自動(dòng)提升 LLM 的能力既復(fù)雜又少有研究。這就引出了以下問題:

我們能讓 LLM 在沒有額外人類標(biāo)注數(shù)據(jù)的前提下實(shí)現(xiàn)自我提升嗎?

方法

從技術(shù)細(xì)節(jié)上講,我們可以將來(lái)自之前迭代的 LLM 記為 pθt,其對(duì)于人類標(biāo)注的 SFT 數(shù)據(jù)集中的 prompt x,可以生成響應(yīng) y'。接下來(lái)的目標(biāo)是找到一個(gè)新的 LLM pθ{t+1},使其有能力區(qū)分 pθt 生成的響應(yīng) y' 和人類給出的響應(yīng) y。

這個(gè)過程可被看作是一個(gè)兩個(gè)玩家的博弈過程:主玩家就是新 LLM pθ{t+1},其目標(biāo)是區(qū)分對(duì)手玩家 pθt 的響應(yīng)以及人類生成的響應(yīng);對(duì)手玩家就是舊 LLM pθt,其任務(wù)是生成與人類標(biāo)注的 SFT 數(shù)據(jù)集盡可能相近的響應(yīng)。

新 LLM pθ{t+1} 是通過微調(diào)舊 LLM pθt 得到的,訓(xùn)練過程是讓新的 LLM pθ{t+1} 有很好的能力區(qū)分 pθt 生成的響應(yīng) y' 和人類給出的響應(yīng) y。而這個(gè)訓(xùn)練不僅讓新的 LLM pθ{t+1} 作為一個(gè)主玩家達(dá)到很好的區(qū)分能力,而且讓新的 LLM pθ{t+1} 作為一個(gè)對(duì)手玩家在下一輪迭代中,給出更對(duì)齊 SFT 數(shù)據(jù)集的響應(yīng)。在下一輪迭代中,新獲得的 LLM pθ{t+1} 會(huì)變成響應(yīng)生成的對(duì)手玩家。

圖片


圖片

這個(gè)自我博弈的過程的目標(biāo)是讓 LLM 最終收斂到 pθ?=p_data,使得可能存在的最強(qiáng)大的 LLM 生成的響應(yīng)不再與其之前版本和人類生成的響應(yīng)不同。

有趣的是,這個(gè)新方法與 Rafailov et al. 近期提出的直接偏好優(yōu)化(DPO)方法表現(xiàn)出了相似性,但新方法的明顯區(qū)別是采用了自我博弈機(jī)制。也因此,這個(gè)新方法就有了一大顯著優(yōu)勢(shì):無(wú)需額外的人類偏好數(shù)據(jù)。

此外,我們也能明顯看出這種新方法與生成對(duì)抗網(wǎng)絡(luò)(GAN)的相似性,只不過新方法中的判別器(主玩家)和生成器(對(duì)手)是同一個(gè) LLM 在相鄰兩次迭代后的實(shí)例。

該團(tuán)隊(duì)還對(duì)這個(gè)新方法進(jìn)行了理論證明,結(jié)果表明:當(dāng)且僅當(dāng) LLM 的分布等于目標(biāo)數(shù)據(jù)分布時(shí),即 p_θ_t=p_data 時(shí),該方法可以收斂。

實(shí)驗(yàn)

在實(shí)驗(yàn)中,該團(tuán)隊(duì)使用了一個(gè)基于 Mistral-7B 微調(diào)后的 LLM 實(shí)例 zephyr-7b-sft-full。

結(jié)果表明,新方法能在連續(xù)迭代中持續(xù)提升 zephyr-7b-sft-full,而作為對(duì)比,當(dāng)在 SFT 數(shù)據(jù)集 Ultrachat200k 上使用 SFT 方法持續(xù)訓(xùn)練時(shí),評(píng)估分?jǐn)?shù)則會(huì)達(dá)到性能瓶頸,甚至出現(xiàn)下降情況。

更有趣的是,新方法使用的數(shù)據(jù)集只是 Ultrachat200k 數(shù)據(jù)集的一個(gè) 50k 大小的子集!

新方法 SPIN 還有另一項(xiàng)成就:可有效地將 HuggingFace Open LLM 排行榜中基礎(chǔ)模型 zephyr-7b-sft-full 的平均分?jǐn)?shù)從 58.14 提升至 63.16,其中在 GSM8k 和 TruthfulQA 上能有超過 10% 的驚人提升,在 MT-Bench 上也可從 5.94 提升至 6.78。

圖片

圖片

值得注意的是,在 Open LLM 排行榜上,使用 SPIN 微調(diào)的模型甚至能與再使用額外 62k 偏好數(shù)據(jù)集訓(xùn)練的模型媲美。

圖片

結(jié)論

通過充分利用人類標(biāo)注數(shù)據(jù),SPIN 讓大模型靠自我博弈從弱變強(qiáng)。與基于人類偏好反饋的強(qiáng)化學(xué)習(xí)(RLHF)相比,SPIN 使 LLM 能夠在沒有額外人類反饋或者更強(qiáng)的 LLM 反饋的情況下自我改進(jìn)。在包含 HuggingFace Open LLM 排行榜的多個(gè)基準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)上,SPIN 顯著且穩(wěn)定地提高了 LLM 的性能,甚至超過了使用額外 AI 反饋訓(xùn)練的模型。

我們期待 SPIN 可以助力大模型的進(jìn)化和提升,并最終實(shí)現(xiàn)超越人類水平的人工智能。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-02-17 08:03:11

2015-07-22 16:24:00

云計(jì)算云服務(wù)云服務(wù)漲價(jià)

2009-11-16 10:02:19

Google Chrome OS開放下載

2023-10-13 09:43:36

自動(dòng)駕駛數(shù)據(jù)

2024-05-30 08:40:41

大型語(yǔ)言模型LLM人工智能

2021-10-25 06:02:17

零信任網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2024-04-18 10:39:57

2024-04-15 12:43:26

人工智能LLM

2025-03-20 14:18:57

AI算法模型

2009-05-14 09:01:35

處理器IntelAMD

2021-10-09 11:27:47

機(jī)器學(xué)習(xí)人工智能左右互博術(shù)

2024-10-29 21:01:44

2024-04-22 08:49:13

大語(yǔ)言模型LLMAI

2017-04-12 15:18:28

企業(yè)網(wǎng)盤

2022-05-20 16:38:45

網(wǎng)絡(luò)安全白帽黑客CFAA法律

2025-04-18 11:22:57

2023-06-12 12:21:27

研究框架

2025-01-03 11:02:38

OpenAIAgent大模型

2009-04-09 19:41:18

Nehalem英特爾服務(wù)器

2021-10-30 09:22:25

微信淘寶嚴(yán)控隱私
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)