自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

華人科學(xué)團(tuán)隊(duì)推出「思維鏈集」,全面測(cè)評(píng)大模型復(fù)雜推理能力

人工智能 新聞
研究人員希望通過對(duì)大模型復(fù)雜推理能力的評(píng)測(cè)來充分發(fā)掘大模型未來執(zhí)行各種復(fù)雜任務(wù)的潛力。

大模型能力涌現(xiàn),參數(shù)規(guī)模越大越好?

然而,越來越多的研究人員聲稱,小于10B的模型也可以實(shí)現(xiàn)與GPT-3.5相當(dāng)?shù)男阅堋?/span>

真是如此嗎?

OpenAI發(fā)布GPT-4的博客中,曾提到:

在隨意的交談中,GPT-3.5和GPT-4之間的區(qū)別可能很微妙。當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠閾值時(shí),差異就會(huì)出現(xiàn)——GPT-4比GPT-3.5更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。

谷歌的開發(fā)者對(duì)PaLM模型也進(jìn)行了類似的觀察,他們發(fā)現(xiàn),大模型的思維鏈推理能力明顯強(qiáng)于小模型。

這些觀察都表明,執(zhí)行復(fù)雜任務(wù)的能力,才是體現(xiàn)大模型能力的關(guān)鍵。

就像那句老話,模型和程序員一樣,「廢話少說,show me the reasoning」。

圖片

來自愛丁堡大學(xué)、華盛頓大學(xué)、艾倫AI研究所的研究人員認(rèn)為,復(fù)雜推理能力是大模型在未來進(jìn)一步朝著更加智能化工具發(fā)展的基礎(chǔ)。

基本的文字總結(jié)歸納能力,大模型執(zhí)行起來確實(shí)屬于「殺雞用牛刀」。

針對(duì)這些基礎(chǔ)能力的測(cè)評(píng),對(duì)于研究大模型未來發(fā)展似乎是有些不務(wù)正業(yè)。

論文地址:https://arxiv.org/pdf/2305.17306.pdf

大模型推理能力哪家強(qiáng)?

這也就是為什么研究人員編制了一個(gè)復(fù)雜推理任務(wù)列表Chain-of-Thought Hub,來衡量模型在具有挑戰(zhàn)性的推理任務(wù)中的表現(xiàn)。

測(cè)試項(xiàng)目包括,數(shù)學(xué)(GSM8K)),科學(xué)(MATH,定理 QA),符號(hào)(BBH) ,知識(shí)(MMLU,C-Eval),編碼(HumanEval)。

這些測(cè)試項(xiàng)目或者數(shù)據(jù)集都是針對(duì)大模型的復(fù)雜推理能力下手,沒有那種誰來都能答得八九不離十的簡單任務(wù)。

研究人員依然采用思維鏈提示(COT Prompt)的方式來對(duì)模型的推理能力進(jìn)行測(cè)評(píng)。

對(duì)于推理能力的測(cè)試,研究人員只采用最終答案的表現(xiàn)作為唯一的衡量標(biāo)準(zhǔn),而中間的推理步驟不作為評(píng)判的依據(jù)。

如下圖所示,當(dāng)前主流模型在不同推理任務(wù)上的表現(xiàn)。

圖片

測(cè)試結(jié)果:模型越大推理能力越強(qiáng)

研究人員的研究專注于當(dāng)前流行模型,包括GPT、Claude、PaLM、LLaMA和T5模型家族,具體而言:

OpenAI GPT包括GPT-4(目前最強(qiáng))、GPT3.5-Turbo(更快,但能力較弱)、text-davinci-003、text-davinci-002和code-davinci-002(Turbo之前的重要版本)。

圖片

Anthropic Claude包括claude-v1.3(較慢但能力較強(qiáng))和claude-instant-v1.0(較快但能力較弱)。

Google PaLM,包括PaLM、PaLM-2,以及它們的指令調(diào)整版本(FLan-PaLM和Flan-UPaLM),強(qiáng)基礎(chǔ)和指令調(diào)整模型。

圖片

Meta LLaMA,包括7B、13B、33B和65B變體,重要的開放源碼的基礎(chǔ)模型。

GPT-4在GSM8K和MMLU上明顯優(yōu)于其他所有模型,而Claude是唯一一個(gè)與GPT系列相媲美的模型。

FlanT5 11B和LLaMA 7B等較小的模型掉隊(duì)掉的厲害。

通過實(shí)驗(yàn),研究人員發(fā)現(xiàn),模型性能通常與規(guī)模相關(guān),大致呈對(duì)數(shù)線性趨勢(shì)。

不公開參數(shù)規(guī)模的模型,通常比公開規(guī)模信息的模型表現(xiàn)更好。

LLaMA-65B推理能力接近ChatGPT

另外,研究者指出,開源社區(qū)可能仍需要探索關(guān)于規(guī)模和RLHF的「護(hù)城河」以進(jìn)一步改進(jìn)。

圖片

論文一作符堯總結(jié)道:

1. 開源和封閉之間存在明顯的差距。 

2. 大多數(shù)排名靠前的主流模型是RLHF

3. LLaMA-65B非常接近c(diǎn)ode-davinci-002,GPT-3.5的基礎(chǔ)模型 

4. 綜合上述,最有希望的方向是「在LLaMA 65B上做RLHF」。

圖片

針對(duì)這個(gè)項(xiàng)目,作者對(duì)未來的進(jìn)一步優(yōu)化進(jìn)行了說明:

未來會(huì)增加更多包括更精心選擇的推理數(shù)據(jù)集,尤其是衡量常識(shí)推理、數(shù)學(xué)定理的數(shù)據(jù)集。

以及調(diào)用外部 API 的能力。

更重要的是要囊括更多語言模型,例如基于 LLaMA 的指令微調(diào)模型,例如 Vicuna7等等開源模型。

還可以通過 API像 Cohere 8 一樣訪問PaLM-2 等模型的能力。

總之,作者相信這個(gè)項(xiàng)目可以作為評(píng)估和指導(dǎo)開源大語言模型發(fā)展的一個(gè)公益設(shè)施發(fā)揮很大作用。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-02-17 14:43:51

2023-05-05 13:29:04

模型推理

2024-04-11 11:35:03

大語言模型LLMs

2025-02-10 09:35:00

2023-11-15 14:17:23

微軟語言模型AI 模型

2025-02-08 17:00:11

2023-09-10 10:51:22

算法結(jié)構(gòu)

2025-03-11 08:50:00

2022-10-31 09:36:47

深度學(xué)習(xí)數(shù)據(jù)集

2023-06-20 13:44:49

清華推理

2023-05-15 15:38:59

AI模型

2023-10-11 12:32:53

AI模型

2024-11-11 11:05:00

大語言模型系統(tǒng)

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2024-12-19 09:48:07

2024-04-11 07:10:59

大語言模型AI人工智能

2025-01-15 10:28:21

2025-03-17 08:15:00

AI技術(shù)模型

2024-05-14 09:22:51

模型技術(shù)

2025-03-12 09:48:19

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)