探秘大語言模型數(shù)據(jù)合成能力:AgoraBench基準(zhǔn)測試全解析 精華
現(xiàn)在語言模型用合成數(shù)據(jù)訓(xùn)練變得越來越重要,但之前沒標(biāo)準(zhǔn)方法比較不同模型生成數(shù)據(jù)的能力。這篇文章提出 AgoraBench測試,用它評估模型在生成數(shù)據(jù)上的水平。結(jié)果發(fā)現(xiàn)不同模型各有厲害的地方,而且生成數(shù)據(jù)能力和解決問題能力不一樣,像數(shù)據(jù)質(zhì)量的一些特點(diǎn)更能體現(xiàn)其生成能力。這對研究人員和用模型的人都有幫助,能讓研究人員知道什么樣的模型能更好地生成數(shù)據(jù),讓用模型的人優(yōu)化自己生成數(shù)據(jù)的方法,對語言模型在實(shí)際里用得更好很有意義。
鑒于合成數(shù)據(jù)在語言模型(LM)后訓(xùn)練中的使用日益增加,語言模型生成高質(zhì)量數(shù)據(jù)的能力已幾乎與其直接解決問題的能力同等重要。雖然先前的工作側(cè)重于開發(fā)有效的數(shù)據(jù)生成方法,但它們?nèi)狈υ诮y(tǒng)一設(shè)置下對不同語言模型作為數(shù)據(jù)生成器的系統(tǒng)比較。為了彌補(bǔ)這一差距,我們提出了 AGORABENCH,這是一個基準(zhǔn)測試,它提供標(biāo)準(zhǔn)化的設(shè)置和指標(biāo)來評估語言模型的數(shù)據(jù)生成能力。通過使用 6 種語言模型合成 126 萬個訓(xùn)練實(shí)例并訓(xùn)練 99 個學(xué)生模型,我們揭示了關(guān)于語言模型數(shù)據(jù)生成能力的關(guān)鍵見解。首先,我們觀察到語言模型表現(xiàn)出不同的優(yōu)勢。例如,GPT - 4o 在生成新問題方面表現(xiàn)出色,而 Claude - 3.5 Sonnet 在改進(jìn)現(xiàn)有問題方面表現(xiàn)更好。此外,我們的分析表明,語言模型的數(shù)據(jù)生成能力與其解決問題的能力并不一定相關(guān)。相反,數(shù)據(jù)質(zhì)量的多個內(nèi)在特征——包括響應(yīng)質(zhì)量、困惑度和指令難度——共同作為更好的指標(biāo)。最后,我們證明了輸出格式的策略選擇和具有成本意識的模型選擇顯著影響數(shù)據(jù)生成的有效性。
?研究背景:語言模型后訓(xùn)練對合成數(shù)據(jù)需求攀升,但此前評估模型數(shù)據(jù)生成能力的工作分散,缺統(tǒng)一實(shí)驗(yàn)設(shè)定,不同研究在數(shù)據(jù)生成方法、模型選用、數(shù)據(jù)量及評估基準(zhǔn)上差異大,難以精準(zhǔn)衡量模型生成能力,故需標(biāo)準(zhǔn)框架來有效對比各模型在數(shù)據(jù)生成任務(wù)中的表現(xiàn),推動該領(lǐng)域發(fā)展。
?研究貢獻(xiàn):
創(chuàng)新提出 AGORABENCH 基準(zhǔn)測試,結(jié)合多領(lǐng)域與多種數(shù)據(jù)生成法,統(tǒng)一設(shè)置僅變數(shù)據(jù)生成器,精準(zhǔn)度量語言模型數(shù)據(jù)生成能力,為系統(tǒng)評估奠基。
挖掘模型優(yōu)勢差異,如 GPT - 4o 實(shí)例生成強(qiáng)、Claude - 3.5 Sonnet 質(zhì)量優(yōu)化優(yōu),打破以解題力衡量生成力局限,發(fā)現(xiàn)兩者弱關(guān)聯(lián),明確指令難度等多特征聯(lián)合為優(yōu)指標(biāo),助選合適模型。
驗(yàn)證輸出格式與成本選模影響生成,JSON 格式或降性能、預(yù)算限定時便宜模型多生數(shù)據(jù)或更優(yōu),為優(yōu)化生成策略提供關(guān)鍵依據(jù)。
?實(shí)現(xiàn)設(shè)計(jì):
實(shí)驗(yàn)設(shè)置:確定數(shù)學(xué)、代碼、指令跟隨核心領(lǐng)域,依數(shù)據(jù)生成法擇適配種子數(shù)據(jù)集與基準(zhǔn)測試,使語言模型于各設(shè)置造等量訓(xùn)練實(shí)例,以孤立數(shù)據(jù)質(zhì)量影響、精準(zhǔn)評估生成力。
指標(biāo)構(gòu)建:創(chuàng)性能差距恢復(fù)(PGR)指標(biāo),借學(xué)生模型在基準(zhǔn)測試分?jǐn)?shù)變化,量化其于生成數(shù)據(jù)訓(xùn)練后相對基礎(chǔ)模型改進(jìn)程度,有效度量模型數(shù)據(jù)生成價值。
評估流程:用監(jiān)督微調(diào)訓(xùn)練學(xué)生模型,依設(shè)定超參數(shù)直用生成數(shù)據(jù)訓(xùn)練,聚焦評估語言模型原始生成力,多維度內(nèi)在評估含指令質(zhì)量、響應(yīng)特性及多樣性衡量,借主成分分析挖掘關(guān)鍵影響因素及預(yù)測因子。
?實(shí)驗(yàn)結(jié)果:
模型性能對比:GPT - 4o 在多設(shè)置中 PGR 得分優(yōu),實(shí)例生成領(lǐng)先;Claude - 3.5 - Sonnet 質(zhì)量增強(qiáng)佳,特定領(lǐng)域響應(yīng)生成出色,且弱解題力模型可能優(yōu)先生成,如代碼域 Llama - 3.1 - 8B - Instruct 超強(qiáng)解題模型。
成本性能平衡:Llama - 3.1 - 8B - Instruct 性價比高,GPT - 4o 較 Claude - 3.5 - Sonnet 低成本優(yōu)效,為經(jīng)濟(jì)選模供依據(jù),顯示成本非性能決定因素。
其他因素影響:JSON 格式降性能,元提示優(yōu)化重要,預(yù)算約束下弱模型多生成實(shí)例在部分領(lǐng)域超強(qiáng)模型少生成情形,表明輸出格式、成本與生成量協(xié)同影響生成效果。
1.引言
在合成數(shù)據(jù)上對語言模型進(jìn)行后訓(xùn)練是提高其解決廣泛任務(wù)能力的一種有前途的方法(Wang 等人,2023;Honovich 等人,2023;Taori 等人,2023;Liu 等人,2024b)。雖然通過手動標(biāo)注獲取數(shù)據(jù)仍然發(fā)揮著重要作用,但合成數(shù)據(jù)生成提供了一種可擴(kuò)展的替代人工標(biāo)注的方法(Viswanathan 等人,2023;Kim 等人,2023b)。因此,許多工作提出了新穎的方法來有效地生成高質(zhì)量的合成數(shù)據(jù)(Xu 等人,2024a;Gunasekar 等人,2023;Yue 等人,2023,2024)。
隨著多個性能相當(dāng)?shù)膶S姓Z言模型出現(xiàn)以及開源語言模型穩(wěn)步追趕(Hurst 等人,2024;Anthropic,2024;MetaAI,2024;Team,2024),衡量每個語言模型的數(shù)據(jù)生成能力變得與開發(fā)新的數(shù)據(jù)生成方法同樣關(guān)鍵。此外,提供專有語言模型的公司已開始推廣使用其最新模型來生成合成數(shù)據(jù)(Nvidia,2024)。仔細(xì)比較不同語言模型的數(shù)據(jù)生成能力有助于驗(yàn)證這些說法,并使從業(yè)者能夠明智地選擇用于數(shù)據(jù)合成的模型。
為了系統(tǒng)地比較語言模型作為數(shù)據(jù)生成器的能力,需要一個統(tǒng)一的實(shí)驗(yàn)設(shè)置,其中只有數(shù)據(jù)生成器變化,而其他組件保持固定。然而,如圖 1 所示,先前的工作更多地側(cè)重于展示其數(shù)據(jù)生成方法的有效性,導(dǎo)致了各種實(shí)驗(yàn)設(shè)置,使得這種比較具有挑戰(zhàn)性。例如,Self - Instruct(Wang 等人,2023)、Alpaca(Taori 等人,2023)、WizardLM(Xu 等人,2024a)和 Orca(Mukherjee 等人,2023)在用于數(shù)據(jù)生成的語言模型選擇、合成訓(xùn)練數(shù)據(jù)的數(shù)量、用于訓(xùn)練的基礎(chǔ)模型以及評估在合成數(shù)據(jù)集上訓(xùn)練的模型的基準(zhǔn)測試方面各不相同。這些不同的設(shè)置使得難以分離和衡量語言模型的數(shù)據(jù)生成能力,突出了對受控設(shè)置的需求。
為此,我們提出了 AGORABENCH,這是一個用于評估語言模型在九種設(shè)置下的數(shù)據(jù)生成能力的基準(zhǔn)測試,它將三個領(lǐng)域(數(shù)學(xué)、指令跟隨、代碼)與三種數(shù)據(jù)生成方法(實(shí)例生成、響應(yīng)生成、質(zhì)量增強(qiáng))相結(jié)合。在每種設(shè)置中,除數(shù)據(jù)生成器外的所有變量都受到控制:使用相同的元提示和種子數(shù)據(jù)集,每個語言模型生成相同數(shù)量的訓(xùn)練實(shí)例。在每個合成數(shù)據(jù)集上訓(xùn)練 Llama3.1 - 8B,并在涵蓋不同能力(數(shù)學(xué)、編碼和一般指令跟隨)的固定基準(zhǔn)測試集上進(jìn)行評估。為了評估合成數(shù)據(jù)的質(zhì)量,我們定義了一個稱為性能差距恢復(fù)(PGR)的指標(biāo),它衡量在數(shù)據(jù)上訓(xùn)練的模型(表示為“學(xué)生模型”)相對于其基礎(chǔ)模型的相對改進(jìn)?;诖嗽O(shè)置,我們評估六種語言模型作為數(shù)據(jù)生成器:GPT - 4o、GPT - 4o - mini、Claude - 3.5 - Sonnet 和 Llama - 3.1 - Instruct(8B、70B、405B)。
我們的分析揭示了不同語言模型在各種數(shù)據(jù)生成方法中的獨(dú)特優(yōu)勢。例如,GPT - 4o 在生成新實(shí)例方面表現(xiàn)出卓越的性能(+ 46.75%),優(yōu)于 Claude - 3.5 - Sonnet(+ 24.14%)和 Llama - 3.1 - 405B - Instruct(+ 10.10%)。另一方面,Claude - 3.5 - Sonnet 在優(yōu)化現(xiàn)有實(shí)例方面表現(xiàn)出色(+ 17.89%),超過 GPT - 4o(+ 6.69%)和 GPT - 4o - mini(+ 5.49%)。這些發(fā)現(xiàn)展示了 AGORABENCH 如何指導(dǎo)從業(yè)者為其特定需求選擇合適的語言模型。
出乎意料的是,我們還發(fā)現(xiàn)解決問題能力較弱的語言模型有時在數(shù)據(jù)生成方面優(yōu)于能力較強(qiáng)的語言模型——例如,在代碼領(lǐng)域生成新實(shí)例時,Claude - 3.5 - Sonnet(+ 23.43%)不如 Llama - 3.1 - 8B - Instruct(+ 55.69%)有效。基于這些發(fā)現(xiàn),我們研究語言模型的數(shù)據(jù)生成能力是否僅由其解決問題的能力預(yù)測。我們的分析表明這兩種能力之間沒有很強(qiáng)的相關(guān)性。相反,數(shù)據(jù)質(zhì)量的多個內(nèi)在特征——包括指令難度、響應(yīng)質(zhì)量和響應(yīng)困惑度——共同影響學(xué)生模型的改進(jìn)。此外,我們證明從內(nèi)在測量中提取的前 5 個主成分可以解釋 PGR 值中 93.4%的方差。
最后,我們進(jìn)行了有效數(shù)據(jù)生成的分析實(shí)驗(yàn)。例如,我們發(fā)現(xiàn)合成數(shù)據(jù)的輸出格式顯著影響性能:與自由格式生成相比,使用 JSON 格式生成的數(shù)據(jù)在六個設(shè)置中的平均性能低 4.45%。此外,在預(yù)算受限的設(shè)置中,使用較弱的模型生成更多數(shù)據(jù)可能優(yōu)于使用較強(qiáng)的模型生成較少數(shù)據(jù)。我們發(fā)現(xiàn)使用 GPT - 4o - mini 生成 50K 實(shí)例,雖然成本低 3.4 倍,但在三個設(shè)置中的兩個設(shè)置中比使用 GPT - 4o 生成 10K 實(shí)例實(shí)現(xiàn)了更好的性能。
2.預(yù)備知識:測量語言模型的數(shù)據(jù)生成能力
符號說明
數(shù)據(jù)生成方法
如圖 2 所示,在各種數(shù)據(jù)生成方法中,大多數(shù)可以分為三類:實(shí)例生成、響應(yīng)生成和質(zhì)量增強(qiáng)。這些方法的工作原理如下:
指標(biāo)
語言模型的數(shù)據(jù)生成能力可以通過評估在教師生成的數(shù)據(jù)上訓(xùn)練的學(xué)生模型的性能改進(jìn)來衡量。具體來說,我們提出一個指標(biāo),性能差距恢復(fù)(PGR),它衡量相對于參考模型在基準(zhǔn) 上的改進(jìn)。
訓(xùn)練學(xué)生模型
3.AGORABENCH 的實(shí)驗(yàn)設(shè)置
在各種選擇中,AgoraBench 專注于被認(rèn)為對語言模型至關(guān)重要的三種核心能力:指令跟隨、數(shù)學(xué)推理和編碼(Chang 等人,2024;Guo 等人,2023;Hurst 等人,2024;Anthropic,2024)。AGORABENCH 的整體實(shí)驗(yàn)設(shè)置,包括每個設(shè)置的領(lǐng)域、種子數(shù)據(jù)集和基準(zhǔn)測試,列于表 1。
領(lǐng)域
然后,使用來自單個領(lǐng)域的數(shù)據(jù)訓(xùn)練學(xué)生模型,以隔離生成數(shù)據(jù)質(zhì)量的影響,因?yàn)榭缬蛴?xùn)練可能通過正遷移或負(fù)遷移引入混淆因素(例如,在代碼數(shù)據(jù)上的訓(xùn)練提高數(shù)學(xué)能力(Dong 等人,2023;Zhang 等人,2024))。
4.AGORABENCH 的實(shí)驗(yàn)結(jié)果
GPT - 4o 是總體性能最佳的數(shù)據(jù)生成器
在九個實(shí)驗(yàn)設(shè)置中,GPT - 4o 在五個設(shè)置中獲得了最高的 PGR 分?jǐn)?shù)。它在實(shí)例生成方面的性能尤為顯著,在所有三個領(lǐng)域(數(shù)學(xué)為 20.6%、代碼為 73.6%、指令跟隨為 46.1%,總體平均為 46.8%)中作為數(shù)據(jù)生成器都優(yōu)于其他語言模型,并且在響應(yīng)生成中也獲得了最高的平均 PGR 分?jǐn)?shù)(35.2%)。
Claude - 3.5 - Sonnet 對質(zhì)量增強(qiáng)特別有效
Claude - 3.5 - Sonnet 在質(zhì)量增強(qiáng)方面表現(xiàn)出強(qiáng)大的性能,在三個領(lǐng)域中的兩個領(lǐng)域(代碼為 21.8%、指令跟隨為 17.9%,總體平均為 17.9%)獲得了最高的 PGR 分?jǐn)?shù)。此外,它在代碼領(lǐng)域的響應(yīng)生成中獲得了最佳的 PGR 分?jǐn)?shù)(44.5%),使其在九個設(shè)置中的最佳表現(xiàn)總數(shù)達(dá)到三次。
較弱的語言模型可以優(yōu)于較強(qiáng)的語言模型
我們觀察到在某些情況下,解決問題能力較弱的語言模型實(shí)現(xiàn)的性能差距恢復(fù)(PGR)分?jǐn)?shù)高于其較強(qiáng)的對應(yīng)模型。在實(shí)例生成的代碼領(lǐng)域中,Claude - 3.5 - Sonnet(23.4%)和 Llama - 3.1 - 405B - Instruct(12.6%)都被 Llama - 3.1 - 70B - Instruct(58.7%)和 Llama - 3.1 - 8B - Instruct(55.7%)超越。同樣,在代碼領(lǐng)域的質(zhì)量增強(qiáng)設(shè)置中,GPT - 4o(8.8%)和 GPT - 4o - mini(-11.2%)的性能比其他語言模型差。
有趣的是,如表 3 所示,在這些情況下表現(xiàn)較差的語言模型實(shí)際上在代碼基準(zhǔn)測試(MBPP 和 HumanEval)中得分更高,這表明它們具有更強(qiáng)的解決問題能力。這種矛盾表明,更強(qiáng)的語言模型不一定能生成更好的訓(xùn)練數(shù)據(jù)。我們將在第 5 節(jié)中進(jìn)一步討論這一現(xiàn)象。
GPT - 4o、GPT - 4o - mini 和 Llama - 3.1 - 8B - Instruct 是平衡成本和性能的有效數(shù)據(jù)生成器
在生成大量合成數(shù)據(jù)時,成本是與性能并列的關(guān)鍵因素。表 3 列出了所有六種語言模型的 API 成本、解決問題能力(基準(zhǔn)測試分?jǐn)?shù))和在 AGORABENCH 上的平均性能(即數(shù)據(jù)生成能力)。Llama - 3.1 - 8B - Instruct 的性能優(yōu)于 Llama - 3.1 - 70B - Instruct 和 Llama - 3.1 - 405B - Instruct,同時成本低 6 到 32.5 倍。同樣,GPT - 4o 以 1.2 到 1.5 倍的較低成本實(shí)現(xiàn)了比 Claude - 3.5 - Sonnet 更好的性能。這些發(fā)現(xiàn)表明,使用更昂貴的語言模型并不一定保證更好的數(shù)據(jù)生成,突出了根據(jù)特定任務(wù)或感興趣的領(lǐng)域仔細(xì)選擇模型的重要性。
5.什么使一個有效的數(shù)據(jù)生成器?
在上一節(jié)中,我們觀察到一個意外的發(fā)現(xiàn):在相同條件下生成相同數(shù)量的合成數(shù)據(jù)時,解決問題能力較弱的語言模型有時優(yōu)于較強(qiáng)的語言模型。為了更好地理解這一現(xiàn)象,我們首先檢查解決問題能力和數(shù)據(jù)生成能力之間是否存在強(qiáng)相關(guān)性(第 5.1 節(jié))。然后,我們研究是否可以通過分析每個語言模型生成的數(shù)據(jù)來預(yù)測學(xué)生模型性能的提升程度(第 5.2 節(jié))。
5.1 最佳求解器一定是最佳生成器嗎?
為了檢查數(shù)據(jù)生成和解決問題能力之間的關(guān)系,我們進(jìn)行了線性回歸分析,比較了兩個指標(biāo):多個基準(zhǔn)測試(GSM8K、MATH、MBPP、HumanEval、AlpacaEval - 2.0、Arena - Hard)的平均性能和 AGORABENCH 的分?jǐn)?shù)。我們在兩個粒度級別上進(jìn)行此分析。第一個分析(粗粒度)使用所有領(lǐng)域和數(shù)據(jù)生成設(shè)置的總體平均 AGORABENCH 分?jǐn)?shù)。第二個分析(細(xì)粒度)分別檢查 AGORABENCH 中不同領(lǐng)域和數(shù)據(jù)生成設(shè)置的單個分?jǐn)?shù)。
圖 4 所示的結(jié)果表明,在任何粒度級別上,解決問題能力(基準(zhǔn)測試分?jǐn)?shù))和數(shù)據(jù)生成能力(AGORABENCH PGR 分?jǐn)?shù))之間都沒有強(qiáng)線性相關(guān)性。這一發(fā)現(xiàn)表明,語言模型在傳統(tǒng)基準(zhǔn)測試上的性能可能無法預(yù)測其作為數(shù)據(jù)生成器的有效性。
5.2 我們可以通過查看數(shù)據(jù)來預(yù)測學(xué)生模型的改進(jìn)嗎?
內(nèi)在評估指標(biāo)
實(shí)驗(yàn)
受 Ruan 等人(2024)的實(shí)驗(yàn)啟發(fā),我們進(jìn)行主成分分析(PCA)以研究內(nèi)在評估指標(biāo)是否可以解釋 AGORABENCH 結(jié)果的變異性。由于我們的內(nèi)在評估指標(biāo)之間存在相互依賴性,我們選擇 PCA 而不是多元線性回歸。
結(jié)果如圖 5 所示,前五個主成分解釋了 AGORABENCH 結(jié)果中約 93.4%的方差(分別為 39.2%、30.4%、11.9%、7.0%和 4.9%)。此外,我們發(fā)現(xiàn)對成分權(quán)重的分析揭示了可解釋的模式。第一個主成分(PC - 1)受指令難度和多樣性相關(guān)指標(biāo)的強(qiáng)烈影響。第二個成分(PC - 2)受響應(yīng)質(zhì)量和指令難度的影響,而第三個成分(PC - 3)結(jié)合了多樣性相關(guān)指標(biāo)、響應(yīng)質(zhì)量和語言模型的解決問題能力。
此外,如表 4 所示,當(dāng)我們分析每個內(nèi)在評估指標(biāo)的平均加載強(qiáng)度(所有主成分中一個特征的加載的平均幅度,表示每個指標(biāo)對數(shù)據(jù)總體方差的影響程度)時,我們觀察到貢獻(xiàn)范圍從 0.189 到 0.256,表明所有內(nèi)在評估指標(biāo)對 PGR 結(jié)果的貢獻(xiàn)相似。我們還發(fā)現(xiàn),與多樣性相關(guān)指標(biāo)或指令難度相關(guān)指標(biāo)相比,響應(yīng)質(zhì)量相關(guān)指標(biāo)對 PGR 結(jié)果的貢獻(xiàn)略強(qiáng)。
最后,我們通過對前 5 個主成分進(jìn)行線性回歸來預(yù)測數(shù)據(jù)生成能力,通過其相應(yīng)的回歸系數(shù)對每個成分進(jìn)行加權(quán),如圖 6 所示。與僅使用解決問題分?jǐn)?shù)相比(圖 4),這種方法產(chǎn)生了具有統(tǒng)計(jì)顯著性的關(guān)系(),解釋能力提高()。然而,中等的 值表明,可能需要超出我們當(dāng)前集合的額外內(nèi)在測量來更好地預(yù)測數(shù)據(jù)生成能力。我們將這個問題的進(jìn)一步探索留給未來的工作。
6.進(jìn)一步分析實(shí)驗(yàn)
在本節(jié)中,我們進(jìn)一步研究關(guān)于數(shù)據(jù)生成的兩個關(guān)鍵問題:(1)我們應(yīng)該優(yōu)先使用更便宜的語言模型追求數(shù)量,還是使用更昂貴的語言模型追求質(zhì)量?(第 6.1 節(jié))以及(2)元提示設(shè)計(jì)的影響是什么,特別是當(dāng)比較結(jié)構(gòu)化 JSON 格式生成與傳統(tǒng)自由格式方法時?(第 6.2 節(jié))
6.1 數(shù)量還是質(zhì)量?
在第 4 節(jié)中,我們表明在某些情況下,較便宜的語言模型在生成固定數(shù)量的實(shí)例時可以比昂貴的語言模型更有效地作為數(shù)據(jù)生成器,盡管昂貴的模型通常表現(xiàn)更好。這引發(fā)了一個實(shí)際問題:使用更便宜的模型生成大量實(shí)例是否比使用更昂貴的模型生成較少實(shí)例更有效?
我們擴(kuò)大實(shí)驗(yàn)規(guī)模,在實(shí)例生成場景中使用 GPT - 4o - mini、Llama - 3.1 - 70B - Instruct 和 Llama - 3.1 - 8B - Instruct 在三個領(lǐng)域中生成多達(dá) 50K 個實(shí)例。如圖 7 所示,使用 GPT - 4o - mini 生成 50K 實(shí)例在指令跟隨和數(shù)學(xué)領(lǐng)域的性能優(yōu)于使用 GPT - 4o 生成 10K 實(shí)例,并且 Llama - 3.1 - 8B - Instruct 在代碼領(lǐng)域表現(xiàn)出類似的模式。鑒于這些語言模型至少比 GPT - 4o 具有五倍的成本效益,我們的發(fā)現(xiàn)表明,使用更實(shí)惠的語言模型生成大量合成數(shù)據(jù)可能比使用昂貴的語言模型生成較小的數(shù)據(jù)集更具優(yōu)勢。此外,這表明當(dāng)比較具有不同數(shù)量訓(xùn)練實(shí)例的兩個設(shè)置時,指令多樣性或響應(yīng)多樣性可能會影響 PGR 結(jié)果。
6.2 元提示的影響
最近,Tam 等人(2024)表明,當(dāng)語言模型以結(jié)構(gòu)化格式(例如 JSON)生成響應(yīng)時,其解決問題的能力會下降。鑒于從業(yè)者在使用語言模型時傾向于結(jié)構(gòu)化輸出(Shorten 等人,2024;Liang 等人,2024),研究這種格式是否影響數(shù)據(jù)生成性能很重要。此外,我們檢查元提示設(shè)計(jì)對生成質(zhì)量的影響。
為了研究這些問題,我們創(chuàng)建了四個額外的元提示進(jìn)行比較。對于每個設(shè)置(實(shí)例生成和質(zhì)量增強(qiáng)),我們讓兩位作者創(chuàng)建元提示:一位開發(fā)了一個未優(yōu)化的版本(花費(fèi)不到 10 分鐘),而另一位創(chuàng)建了一個 JSON 格式的版本。
表 5 展示了我們的發(fā)現(xiàn)。與其他元提示相比,AGORABENCH 元提示在六個設(shè)置中的五個設(shè)置中獲得了最高分?jǐn)?shù),展示了 AGORABENCH 設(shè)置的穩(wěn)健性。將 AGORABENCH 元提示與未優(yōu)化版本進(jìn)行比較,平均性能差距為 3.97%,突出了元提示優(yōu)化的重要性。此外,使用自由格式生成的 AGORABENCH 元提示比 JSON 格式提示的性能高 4.45%。這與最近的發(fā)現(xiàn)一致,即結(jié)構(gòu)化格式要求可能會損害語言模型的輸出質(zhì)量(Tam 等人,2024)。
7.結(jié)論
在本文中,我們引入了 AGORABENCH,這是一個通過標(biāo)準(zhǔn)化設(shè)置和指標(biāo)系統(tǒng)地評估語言模型數(shù)據(jù)生成能力的基準(zhǔn)測試。我們的分析表明,模型在不同的生成方法和領(lǐng)域中表現(xiàn)出獨(dú)特的優(yōu)勢,突出了仔細(xì)選擇數(shù)據(jù)生成器的重要性。雖然語言模型的數(shù)據(jù)生成能力不能僅由其成本或解決問題的能力預(yù)測,但我們從內(nèi)在評估測量中識別出可解釋的低維主成分,這些主成分解釋了高達(dá) 93.4%的方差,并作為更好的預(yù)測指標(biāo)。
展望未來,我們設(shè)想 AGORABENCH 將推動該領(lǐng)域的兩個關(guān)鍵進(jìn)展。首先,由于我們的發(fā)現(xiàn)表明解決問題的能力不是數(shù)據(jù)生成質(zhì)量的主要決定因素,研究人員可以使用我們的基準(zhǔn)測試來識別構(gòu)成有效數(shù)據(jù)生成器的核心能力,并有可能開發(fā)專門用于數(shù)據(jù)生成的語言模型。其次,AGORABENCH 可以作為從業(yè)者評估和改進(jìn)其數(shù)據(jù)生成流程的實(shí)用評估框架——他們可以使用自己的自定義數(shù)據(jù)生成方法、種子數(shù)據(jù)集或元提示,并與我們的基線設(shè)置進(jìn)行比較。此外,他們可以利用我們的系統(tǒng)評估方法在部署大規(guī)模數(shù)據(jù)創(chuàng)建之前優(yōu)化其生成參數(shù)。通過這些互補(bǔ)的研究和應(yīng)用方向,AGORABENCH 旨在加速我們對語言模型作為數(shù)據(jù)生成器的理論理解及其在實(shí)際應(yīng)用中的實(shí)際部署。
參考資料
? 標(biāo)題:Evaluating Language Models as Synthetic Data Generators
? 作者:Seungone Kim, Juyoung Suk, Xiang Yue, Vijay Viswanathan, Seongyun Lee, Yizhong Wang, Kiril Gashteovski, Carolin Lawrence, Sean Welleck, Graham Neubig
? 單位:Carnegie Mellon University, KAIST AI, University of Washington, NEC Laboratories Europe, Ss. Cyril and Methodius University of Skopje
? 標(biāo)簽:語言模型、合成數(shù)據(jù)生成、數(shù)據(jù)生成能力評估、基準(zhǔn)測試
? 概述:本文提出 AGORABENCH 基準(zhǔn)測試,通過標(biāo)準(zhǔn)化設(shè)置與指標(biāo)評估語言模型數(shù)據(jù)生成能力,揭示模型優(yōu)勢及影響因素,為模型選擇和數(shù)據(jù)生成優(yōu)化提供依據(jù)。
? 鏈接:https://arxiv.org/pdf/2412.03679
本文轉(zhuǎn)載自 ??旺知識??,作者: 旺知識
