Anthropic新研究:用統(tǒng)計(jì)思維評(píng)估大模型
目前,評(píng)估大模型的方法就是比在基準(zhǔn)測(cè)試中的數(shù)值,在于突出SOTA結(jié)果,并未充分考慮統(tǒng)計(jì)顯著性。例如,在對(duì)不同模型進(jìn)行評(píng)估時(shí),若僅依據(jù)表面的得分高低判斷優(yōu)劣,而不考慮數(shù)據(jù)的不確定性和變異性,可能會(huì)得出不準(zhǔn)確的結(jié)論。
所以,Anthropic提出了將嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì)思維引入大模型評(píng)估領(lǐng)域。通過(guò)構(gòu)建全面的分析框架,能幫助研究人員量化評(píng)估結(jié)果的精確性,判斷模型之間的差異是否具有統(tǒng)計(jì)顯著性,而非僅僅依賴于表面的得分差異,進(jìn)而為模型的選擇和改進(jìn)提供更可靠的依據(jù)。
我們需要理解評(píng)估框架中的一個(gè)基本概念——超總體。在統(tǒng)計(jì)學(xué)中,總體是指研究對(duì)象的全體,而超總體則是一個(gè)更為宏觀的概念,它包含了所有可能的問(wèn)題。
在大模型評(píng)估的背景下,這意味著不僅僅關(guān)注評(píng)估中出現(xiàn)的具體問(wèn)題,而是將這些問(wèn)題視為從一個(gè)更大的、無(wú)限的、未觀察到的問(wèn)題集合中隨機(jī)抽取的樣本。這種思維方式允許我們從更宏觀的角度來(lái)分析評(píng)估數(shù)據(jù),從而更準(zhǔn)確地估計(jì)模型的性能。
在評(píng)估框架的理論基礎(chǔ)中,每個(gè)問(wèn)題得分被分解為均值部分和零均值隨機(jī)部分。如果一個(gè)評(píng)估由n個(gè)獨(dú)立抽取的問(wèn)題組成,我們可以將第i個(gè)問(wèn)題的得分表示為si,將其分解為均值部分xi和一個(gè)零均值隨機(jī)部分?i,即si=xi+?i。這里的xi被稱為條件均值,它代表了在給定問(wèn)題i被選中的情況下的得分均值。
而?i的方差,記作σ2i=Var(?i),被稱為條件方差,它是在問(wèn)題i被選中的情況下得分的方差。
在這個(gè)框架下,可以使用中心極限定理來(lái)估計(jì)均值的標(biāo)準(zhǔn)誤差。中心極限定理是一個(gè)強(qiáng)大的統(tǒng)計(jì)學(xué)工具,它指出,無(wú)論原始數(shù)據(jù)的分布如何,只要樣本量足夠大,樣本均值的分布將趨近于正態(tài)分布。
因此,即使評(píng)估得分的分布未知,也可以利用中心極限定理來(lái)估計(jì)均值的標(biāo)準(zhǔn)誤差,可以估計(jì)為SEC.L.T.=√[Var(s)/n]=√[(1/n)Σ(i=1ton-1)(si-ˉs)2]/n,其中ˉs是觀察到的得分的平均值。
但評(píng)估中的問(wèn)題并不總是獨(dú)立的。例如,在閱讀理解評(píng)估中,多個(gè)相關(guān)問(wèn)題可能基于同一文本段落。這種情況下,問(wèn)題的抽取是非獨(dú)立的,中心極限定理的一個(gè)關(guān)鍵假設(shè)被違反,因此直接應(yīng)用上述公式將導(dǎo)致不一致的標(biāo)準(zhǔn)誤差。
為了解決這個(gè)問(wèn)題,研究人員引入了聚類標(biāo)準(zhǔn)誤差的概念。聚類標(biāo)準(zhǔn)誤差是一種在社會(huì)科學(xué)中發(fā)展出來(lái)的技術(shù),用于處理問(wèn)題聚類中的依賴和相關(guān)結(jié)構(gòu)。
在評(píng)估框架的理論基礎(chǔ)中,還有一個(gè)重要的概念是方差的降低。方差是衡量得分分布離散程度的統(tǒng)計(jì)量,降低方差可以提高估計(jì)的精度。方差可以分解為兩個(gè)部分:從超總體中選擇問(wèn)題的方差和所選問(wèn)題的得分的均值條件方差。這種分解是加性的,遵循全方差定律。
為了展示這種統(tǒng)計(jì)學(xué)評(píng)估方法,研究人員設(shè)計(jì)了一個(gè)假設(shè)性的實(shí)驗(yàn),比較了兩個(gè)虛構(gòu)模型“Galleon”和“Dreadnought”在三個(gè)非虛構(gòu)評(píng)估上的表現(xiàn):MATH(數(shù)學(xué)推理評(píng)估)、HumanEval(Python編程評(píng)估)和MGSM(多語(yǔ)言小學(xué)數(shù)學(xué)評(píng)估)。
在MATH評(píng)估中,Galleon的平均得分為65.5%,標(biāo)準(zhǔn)誤差為0.7%;Dreadnought的平均得分為63.0%,標(biāo)準(zhǔn)誤差為0.7%。
通過(guò)計(jì)算95%的置信區(qū)間,我們可以得出Galleon的真實(shí)得分在64.1%到66.9%之間,而Dreadnought的真實(shí)得分在62.3%到63.7%之間。這表明Galleon在MATH評(píng)估上的表現(xiàn)顯著優(yōu)于Dreadnought。
在HumanEval評(píng)估中,Dreadnought的平均得分為87.7%,標(biāo)準(zhǔn)誤差為2.1%;Galleon的平均得分為83.6%,標(biāo)準(zhǔn)誤差為2.1%。通過(guò)計(jì)算95%的置信區(qū)間,我們可以得出Dreadnought的真實(shí)得分在83.6%到91.8%之間,而Galleon的真實(shí)得分在79.5%到87.7%之間。這表明Dreadnought在HumanEval評(píng)估上的表現(xiàn)顯著優(yōu)于Galleon。
在MGSM評(píng)估中,Dreadnought的平均得分為78.0%,標(biāo)準(zhǔn)誤差為1.7%;Galleon的平均得分為75.3%,標(biāo)準(zhǔn)誤差為1.7%。通過(guò)計(jì)算95%的置信區(qū)間,我們可以得出Dreadnought的真實(shí)得分在74.6%到81.4%之間,而Galleon的真實(shí)得分在71.9%到78.7%之間。這表明Dreadnought在MGSM評(píng)估上的表現(xiàn)也優(yōu)于Galleon。
通過(guò)這些案例分析,我們可以看到,計(jì)算標(biāo)準(zhǔn)誤差和置信區(qū)間不僅能夠提供更豐富的信息,還能幫助研究者更準(zhǔn)確地評(píng)估模型在不同任務(wù)上的表現(xiàn)。