自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI把GPT-4原始版給了他們:研究不微調(diào)只靠提示詞能走多遠(yuǎn)

人工智能
免微調(diào)對(duì)齊,讓剛出爐的預(yù)訓(xùn)練模型不止會(huì)“文本補(bǔ)全”,只從提示詞中學(xué)會(huì)和用戶對(duì)話、跟隨指令,一直是業(yè)界關(guān)注的研究方向。目前的SOTA方法URIAL來(lái)自艾倫研究所,使用系統(tǒng)提示詞+少數(shù)風(fēng)格示例就能達(dá)到不錯(cuò)的效果。

除了OpenAI自己,居然還有別人能用上GPT-4-Base版??

也就是未經(jīng)微調(diào)的預(yù)訓(xùn)練版,還不會(huì)對(duì)話聊天,只會(huì)補(bǔ)全句子的模型。

EPFL(瑞士洛桑聯(lián)邦理工)團(tuán)隊(duì)申請(qǐng)到了訪問(wèn)權(quán)限,用于研究“上下文學(xué)習(xí)足以讓大模型跟隨指令嗎?”。

圖片

也就是不用監(jiān)督微調(diào)、也不用RHLF或其他強(qiáng)化學(xué)習(xí)對(duì)齊方法,只靠提示詞能走多遠(yuǎn)?

預(yù)訓(xùn)練模型,究竟能不能一步登天,直接改造成聊天機(jī)器人或AI助手?

圖片

如果可行,將大大降低類ChatGPT大模型的開(kāi)發(fā)難度。

免微調(diào)對(duì)齊靠譜嗎?

免微調(diào)對(duì)齊,讓剛出爐的預(yù)訓(xùn)練模型不止會(huì)“文本補(bǔ)全”,只從提示詞中學(xué)會(huì)和用戶對(duì)話、跟隨指令,一直是業(yè)界關(guān)注的研究方向。

目前的SOTA方法URIAL來(lái)自艾倫研究所,使用系統(tǒng)提示詞+少數(shù)風(fēng)格示例就能達(dá)到不錯(cuò)的效果。

圖片

但EPFL團(tuán)隊(duì)發(fā)現(xiàn),URIAL仍無(wú)法完全彌補(bǔ)與指令微調(diào)模型的差距,尤其在多輪對(duì)話中的表現(xiàn)更差一些。

實(shí)驗(yàn)中,在Llama系列、Mistral系列和一般人接觸不到的GPT-4-Base都觀察到這種現(xiàn)象。

其中GPT-4-Base的API訪問(wèn)權(quán)限從OpenAI Researcher Access Program項(xiàng)目中申請(qǐng)到。

圖片

EPFL團(tuán)隊(duì)從這里出發(fā),嘗試了各種辦法來(lái)提升上下文學(xué)習(xí)的效果。

首先他們增加示例的數(shù)量,但發(fā)現(xiàn)幫助不大,沒(méi)有隨著例子數(shù)目增加性能就提升的趨勢(shì)。這一點(diǎn)跟圖像分類、機(jī)器翻譯等任務(wù)還不太一樣。

圖片

然后他們使用了貪心搜索算法,從一大堆示例中選擇最佳的添加到上下文。

這種方法可以進(jìn)一步提高性能,但與指令微調(diào)模型的差距仍然存在,特別是在 AlpacaEval 2.0基準(zhǔn)測(cè)試中。

圖片

此外他們還發(fā)現(xiàn),貪心搜索為某個(gè)特定模型找到的最佳示例,對(duì)于其他模型不能可靠地遷移。

也就是說(shuō),不同的示例適合不同的模型

圖片

團(tuán)隊(duì)還進(jìn)行了一系列消融實(shí)驗(yàn),以更多地了解上下文學(xué)習(xí)的工作原理。

他們發(fā)現(xiàn),在MT-Bench這樣的綜合評(píng)測(cè)中,示例包含正確的“問(wèn)題-答案對(duì)”至關(guān)重要

這與此前大模型在分類任務(wù)中,只要有大量示例,部分標(biāo)簽錯(cuò)了也無(wú)所謂的發(fā)現(xiàn)非常不同。

圖片

所以最終得出的結(jié)論是:

即使采用更多復(fù)雜的改進(jìn)方法,完全縮小上下文學(xué)習(xí)和指令微調(diào)之間的差距也有挑戰(zhàn),即使對(duì)于非常長(zhǎng)上下文的大模型也是如此。

論文最后分析,大語(yǔ)言模型可能通過(guò)上下文學(xué)習(xí)只學(xué)會(huì)了如何模仿例子里的回答風(fēng)格,但還沒(méi)有真正理解執(zhí)行指令的邏輯。

指令跟隨任務(wù)相對(duì)還是比較復(fù)雜和開(kāi)放的,沒(méi)那么容易掌握。

想讓AI助手更“聽(tīng)話”,暫時(shí)還是很難有捷徑可走。

論文地址:

https://arxiv.org/abs/2405.19874。

參考鏈接:
[1]https://x.com/maksym_andr/status/1796574297894318136。

責(zé)任編輯:姜華 來(lái)源: 量子位
相關(guān)推薦

2023-05-29 09:29:52

GPT-4語(yǔ)言模型

2024-04-22 08:25:00

2024-07-02 13:25:22

2023-04-09 16:17:05

ChatGPT人工智能

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2023-07-07 09:32:57

GPT-4OpenAI

2023-09-06 16:44:03

2023-12-17 22:04:04

微軟GPT-4

2023-07-20 12:16:31

GPT-4AI

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2023-06-19 08:19:50

2024-05-28 14:40:00

2023-05-05 10:17:00

計(jì)算機(jī)開(kāi)源

2023-03-16 17:28:59

技術(shù)AI

2024-07-22 09:01:20

2023-06-08 11:27:10

模型AI

2025-04-16 09:35:03

2023-03-16 08:13:56

人工智能?OpenAI

2024-05-13 17:45:00

2023-07-14 09:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)