自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="n1ueo"></sub>

^{<blockquote id="n1ueo"><i id="n1ueo"></i></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

大模型數(shù)據(jù)建設(shè)探索與實(shí)踐

作者：趙宇 2024-09-10 08:42:37

本次分享題目為大模型數(shù)據(jù)建設(shè)探索與實(shí)踐。對(duì)于希望從零開(kāi)始訓(xùn)練一個(gè)具有千億參數(shù)規(guī)模的大型模型的團(tuán)隊(duì)來(lái)說(shuō)，整個(gè)任務(wù)流程的規(guī)劃和執(zhí)行成為了一個(gè)重要議題。

一、從工程化視角看數(shù)據(jù)建設(shè)

在當(dāng)前大模型技術(shù)快速發(fā)展的背景下，數(shù)據(jù)對(duì)模型效果的影響力日益增強(qiáng)。對(duì)于希望從零開(kāi)始訓(xùn)練一個(gè)具有千億參數(shù)規(guī)模的大型模型的團(tuán)隊(duì)來(lái)說(shuō)，整個(gè)任務(wù)流程的規(guī)劃和執(zhí)行成為了一個(gè)重要議題。接下來(lái)詳細(xì)探討從工程化視角下的數(shù)據(jù)建設(shè)過(guò)程，包括數(shù)據(jù)準(zhǔn)備、預(yù)訓(xùn)練、后訓(xùn)練以及數(shù)據(jù)版本的動(dòng)態(tài)調(diào)整。

1. 數(shù)據(jù)準(zhǔn)備與訓(xùn)練流程

理想情況下，大模型的訓(xùn)練流程可以分為三個(gè)階段：數(shù)據(jù)準(zhǔn)備、預(yù)訓(xùn)練與后訓(xùn)練。然而，實(shí)際情況遠(yuǎn)比這一理想化的模型復(fù)雜?？梢詫⑵浔扔鳛椤鞍汛笙蠓胚M(jìn)冰箱”的問(wèn)題，即分為三個(gè)步驟：數(shù)據(jù)收集、預(yù)訓(xùn)練及后訓(xùn)練。實(shí)際操作中，這一過(guò)程的復(fù)雜性主要體現(xiàn)在兩個(gè)方面：

預(yù)訓(xùn)練周期長(zhǎng)：預(yù)訓(xùn)練階段不僅時(shí)間跨度長(zhǎng)，而且涉及大量的數(shù)據(jù)和資源協(xié)調(diào)。一個(gè)模型從開(kāi)始訓(xùn)練到結(jié)束，可能會(huì)經(jīng)歷季節(jié)的更迭。
數(shù)據(jù)版本動(dòng)態(tài)調(diào)整：伴隨模型訓(xùn)練進(jìn)展，數(shù)據(jù)版本需要持續(xù)動(dòng)態(tài)調(diào)整。初始的數(shù)據(jù)準(zhǔn)備可能無(wú)法完全滿足模型訓(xùn)練的需求，因此在整個(gè)訓(xùn)練過(guò)程中需要不斷地進(jìn)行微調(diào)。此外，在后訓(xùn)練階段，還需要對(duì)數(shù)據(jù)進(jìn)行篩選，以適應(yīng)模型訓(xùn)練的前進(jìn)方向。

2. 影響數(shù)據(jù)版本更新的因素

影響數(shù)據(jù)版本更新的主要因素包括：

數(shù)據(jù)來(lái)源變更：數(shù)據(jù)來(lái)源的變化直接影響數(shù)據(jù)的構(gòu)成與質(zhì)量。
新數(shù)據(jù)引入：隨著數(shù)據(jù)市場(chǎng)的不斷發(fā)展，引入新數(shù)據(jù)成為一種可能。通過(guò)分析不同數(shù)據(jù)來(lái)源和通用語(yǔ)料長(zhǎng)度，可以得出實(shí)際的需求量與市場(chǎng)庫(kù)存量之間的差異。這一差異表明，盡管數(shù)據(jù)市場(chǎng)在繁榮發(fā)展，但要通過(guò)采購(gòu)方式獲取足量的訓(xùn)練數(shù)據(jù)仍具有挑戰(zhàn)性。

數(shù)據(jù)配比差異：在訓(xùn)練過(guò)程中，數(shù)據(jù)的自然配比與理想的配比可能存在差異，需要根據(jù)訓(xùn)練情況適時(shí)調(diào)整。

3. 先導(dǎo)模型在工程實(shí)踐中的應(yīng)用

在工程實(shí)踐中，常用的方法是訓(xùn)練一個(gè)先導(dǎo)模型來(lái)監(jiān)控?cái)?shù)據(jù)變化并及時(shí)作出調(diào)整。先導(dǎo)模型的規(guī)模通常較小，如 1B 參數(shù)級(jí)別。當(dāng)需要調(diào)整數(shù)據(jù)時(shí)，可通過(guò)先導(dǎo)模型進(jìn)行一系列實(shí)驗(yàn)，包括數(shù)據(jù)去重、清洗及配比調(diào)整等，并對(duì)效果進(jìn)行評(píng)估。一旦確定可行方案，即可同步應(yīng)用于主模型。

在某些情況下，一級(jí)先導(dǎo)模型可能無(wú)法完全滿足數(shù)據(jù)調(diào)整的需求，這時(shí)可能需要二級(jí)甚至多級(jí)先導(dǎo)模型來(lái)進(jìn)行更細(xì)致的追隨訓(xùn)練。在多級(jí)先導(dǎo)模型的設(shè)置中，可能需要進(jìn)行二次甚至多次的先導(dǎo)實(shí)驗(yàn)，以確保決策的準(zhǔn)確性。這種多級(jí)實(shí)驗(yàn)雖然增加了時(shí)間和算力成本，但在減少 token 消耗的同時(shí)，提高了實(shí)驗(yàn)結(jié)果的可靠性。

4. 評(píng)測(cè)指標(biāo)與數(shù)據(jù)版本更新

在訓(xùn)練過(guò)程中，通過(guò)對(duì)先導(dǎo)模型進(jìn)行評(píng)測(cè)，可以發(fā)現(xiàn)特定領(lǐng)域的不足之處（如數(shù)學(xué)或編程能力）?；谠u(píng)測(cè)結(jié)果，可以針對(duì)性地調(diào)整數(shù)據(jù)配置，從而改善模型性能。

5. 數(shù)據(jù)處理流程

不同的數(shù)據(jù)版本更新方式會(huì)觸發(fā)不同的數(shù)據(jù)處理流程。如果數(shù)據(jù)更新是由數(shù)據(jù)變化觸發(fā)的，則可能需要從頭到尾進(jìn)行數(shù)據(jù)處理的各個(gè)步驟；如果是通過(guò)評(píng)測(cè)引導(dǎo)的方法來(lái)觸發(fā)，則只需調(diào)整數(shù)據(jù)配比和領(lǐng)域選擇。

二、預(yù)訓(xùn)練數(shù)據(jù)配比策略

在大模型的預(yù)訓(xùn)練過(guò)程中，數(shù)據(jù)配比對(duì)于模型性能有著至關(guān)重要的影響。通過(guò)采用 DoReMi 方法、雙層優(yōu)化算法以及在線領(lǐng)域采樣權(quán)重調(diào)整等策略，可以有效提高模型的訓(xùn)練效率與性能。在實(shí)際應(yīng)用中，還需考慮特定領(lǐng)域數(shù)據(jù)的重要性以及數(shù)據(jù)處理與解析的技術(shù)挑戰(zhàn)。

1. 數(shù)據(jù)配比策略概述

我們平常提到的“數(shù)據(jù)配比”，是指在預(yù)訓(xùn)練階段對(duì)不同來(lái)源的數(shù)據(jù)配置不同權(quán)重，以期達(dá)到最優(yōu)訓(xùn)練效果的過(guò)程。論文中通常采用的對(duì)應(yīng)術(shù)語(yǔ)是 “數(shù)據(jù)混合”（Data Mixing）。

（1）DoReMi：一種經(jīng)典的配比方法

DoReMi 方法是一種不依賴于特定任務(wù)的、在小模型上尋找最優(yōu)數(shù)據(jù)混合比例的方法。該方法的基本流程如下：

訓(xùn)練參考模型：在數(shù)據(jù)的不同領(lǐng)域（domains）中設(shè)定一個(gè)歸一化的初始權(quán)重，在上述權(quán)重下訓(xùn)練一個(gè)小的參考模型。
訓(xùn)練代理模型：利用 Group DRO 算法訓(xùn)練一個(gè)代理模型。在此過(guò)程中，代理模型與參考模型之間的損失（loss）在不同領(lǐng)域上存在差異。使用 Mini Max Optimization 算法來(lái)優(yōu)化在代理模型與參考模型間差異最大的領(lǐng)域的權(quán)重。代理模型持續(xù)訓(xùn)練，而參考模型保持不變。通過(guò)代理模型與參考模型的交互過(guò)程，不斷調(diào)整不同領(lǐng)域的權(quán)重。
大模型訓(xùn)練：獲得優(yōu)化后的權(quán)重后，用于訓(xùn)練最終的大模型。

DoReMi 方法相較于原始權(quán)重，在預(yù)訓(xùn)練效果上有明顯提升。例如，下圖展示了采用 DoReMi 方法找到的最優(yōu)化權(quán)重與使用經(jīng)驗(yàn)配比所得到的最終模型訓(xùn)練效果對(duì)比。藍(lán)線表示采用 DoReMi 方法的結(jié)果，紅線表示基線結(jié)果，可以看出，DoReMi 方法在下游任務(wù)上取得了顯著的提升，且隨著模型參數(shù)量的增加，依然穩(wěn)定提升。

（2）DoGE：雙層優(yōu)化算法

另一種方法是通過(guò)雙層優(yōu)化算法直接訓(xùn)練代理模型來(lái)調(diào)整預(yù)訓(xùn)練數(shù)據(jù)的權(quán)重。這種方法的核心在于通過(guò)兩步更新：第一步更新權(quán)重，第二步更新代理模型本身的權(quán)重。該算法更側(cè)重于學(xué)習(xí)對(duì)整體梯度貢獻(xiàn)較大的領(lǐng)域，即找出哪些領(lǐng)域的樣本對(duì)代理模型的影響最大。這種方法不需要單獨(dú)的參考模型，簡(jiǎn)化了訓(xùn)練流程。

（3）ODM：在線領(lǐng)域采樣權(quán)重調(diào)整

更進(jìn)一步的方法是利用多臂老虎機(jī)（Multi-Armed Bandit）算法在線調(diào)整領(lǐng)域采樣權(quán)重。該算法在強(qiáng)化學(xué)習(xí)中較為常見(jiàn)，通過(guò)模擬拉取老虎機(jī)的不同手臂來(lái)獲得獎(jiǎng)勵(lì)。在預(yù)訓(xùn)練模型場(chǎng)景中，大模型可以被視為老虎機(jī)，不同的數(shù)據(jù)集對(duì)應(yīng)不同的手臂。訓(xùn)練過(guò)程中，根據(jù)獲得的獎(jiǎng)勵(lì)（即單個(gè)樣本的損失）來(lái)調(diào)整采樣權(quán)重，以優(yōu)化整體訓(xùn)練效果。

2. 現(xiàn)有方法特點(diǎn)與局限

通過(guò)分析現(xiàn)有方法，可以總結(jié)出以下兩點(diǎn)特征：

更換數(shù)據(jù)集和領(lǐng)域會(huì)影響效果：不同的數(shù)據(jù)集和領(lǐng)域會(huì)對(duì)參數(shù)更新效果產(chǎn)生顯著影響。例如，DoReMi 方法在不同數(shù)據(jù)集上的效果差異較大，這表明數(shù)據(jù)集的多樣性對(duì)訓(xùn)練效果至關(guān)重要。
權(quán)重變更過(guò)程與下游評(píng)測(cè)無(wú)關(guān)：權(quán)重變更過(guò)程通常不考慮下游任務(wù)的評(píng)測(cè)結(jié)果，而是側(cè)重于尋找最優(yōu)化的訓(xùn)練過(guò)程。這可能導(dǎo)致模型在某些特定任務(wù)上的表現(xiàn)不如預(yù)期。

3. 工程化實(shí)踐中的數(shù)據(jù)配比調(diào)整

在工程化實(shí)踐中，數(shù)據(jù)配比的調(diào)整是一個(gè)主動(dòng)觸發(fā)的過(guò)程，主要思路如下：

主動(dòng)觸發(fā)配比調(diào)整：在模型訓(xùn)練初期和中期，根據(jù)評(píng)測(cè)指標(biāo)主動(dòng)觸發(fā)配比調(diào)整。
先導(dǎo)模型輔助：使用先導(dǎo)模型（如 DoReMi 方法）來(lái)優(yōu)化數(shù)據(jù)配比。
避免直接應(yīng)用算法：隨著模型訓(xùn)練進(jìn)展，避免直接應(yīng)用高成本的算法。

4. 經(jīng)驗(yàn)總結(jié)

在實(shí)際應(yīng)用中，需要考慮以下幾點(diǎn)：

中文數(shù)據(jù)的重要性：增加中文數(shù)據(jù)比例可以顯著提高模型在文本理解、推理等方面的性能。例如，一些主流開(kāi)源數(shù)據(jù)集中，中文數(shù)據(jù)比例較低，但在國(guó)內(nèi)應(yīng)用中，增加中文數(shù)據(jù)比例至 40% 左右，可以使模型在英文評(píng)測(cè)集上取得優(yōu)于純英文數(shù)據(jù)配比的效果。

數(shù)學(xué)與題庫(kù)數(shù)據(jù)的重要性：增大數(shù)學(xué)與題庫(kù)數(shù)據(jù)的比例有助于提高考試與代碼評(píng)測(cè)指標(biāo)的提升速率。例如，最新的 LLaMA3 模型中，數(shù)學(xué)占比達(dá)到 25%，代碼占比達(dá)到 17%，這表明在訓(xùn)練數(shù)據(jù)中加入更多數(shù)學(xué)和編程內(nèi)容有助于提高模型在這些領(lǐng)域的表現(xiàn)。

數(shù)據(jù)處理與解析：在公眾化實(shí)驗(yàn)中，處理特定類型的數(shù)據(jù)（如數(shù)學(xué)題目）時(shí)，需要專門的文檔解析技術(shù)或多模態(tài)大模型來(lái)提取文本內(nèi)容。例如，從 PDF 文件中提取公式和表格，需要使用能夠處理這些元素的解析器。

三、后訓(xùn)練數(shù)據(jù)的質(zhì)量篩選

在大模型的訓(xùn)練過(guò)程中，后訓(xùn)練數(shù)據(jù)的選擇和篩選對(duì)于模型性能的提升至關(guān)重要。隨著訓(xùn)練數(shù)據(jù)從單純追求數(shù)量轉(zhuǎn)向重視質(zhì)量，如何高效篩選出高質(zhì)量的數(shù)據(jù)成為了一個(gè)關(guān)鍵議題。

1. 發(fā)展趨勢(shì)

后訓(xùn)練數(shù)據(jù)篩選的發(fā)展趨勢(shì)表現(xiàn)為從追求數(shù)據(jù)量的增加轉(zhuǎn)向關(guān)注數(shù)據(jù)質(zhì)量的提升。這意味著不僅要保證數(shù)據(jù)的多樣性，還要確保數(shù)據(jù)的質(zhì)量，使模型能夠在有限的數(shù)據(jù)集上達(dá)到最佳訓(xùn)練效果。

2. 數(shù)據(jù)篩選方法

為了實(shí)現(xiàn)這一目標(biāo)，研究者們提出了多種數(shù)據(jù)篩選方法，旨在從海量數(shù)據(jù)中挑選出最具價(jià)值的部分。

（1）CherryLLM

基本思想：通過(guò)少量數(shù)據(jù)訓(xùn)練出一個(gè)初步模型，利用該模型評(píng)估數(shù)據(jù)的指令追隨難度，以此作為篩選依據(jù)。（指令追隨難度用于衡量答案與指令的匹配程度，包括直接答案得分和條件答案得分）
篩選流程：從全量數(shù)據(jù)中選取樣例訓(xùn)練經(jīng)驗(yàn)?zāi)Ｐ?；利用該模型篩選出指令追隨難度高的數(shù)據(jù)進(jìn)行后續(xù)訓(xùn)練。

（2）Superfiltering

基本思想：利用較小的模型進(jìn)行篩選減少時(shí)間開(kāi)銷，盡管其困惑度較高，但指令追隨難度分布與大參數(shù)量模型結(jié)果類似，因此仍具有參考價(jià)值。

（3）MoDS

基本思想：利用獎(jiǎng)勵(lì)模型對(duì)數(shù)據(jù)進(jìn)行評(píng)分，通過(guò)多層次篩選進(jìn)一步提升數(shù)據(jù)質(zhì)量。
流程：從高質(zhì)量數(shù)據(jù)中選取種子樣本訓(xùn)練初始模型，使用模型推理結(jié)果再次篩選并增強(qiáng)數(shù)據(jù)集。

（4）NUGGETS

基本思想：評(píng)估每條樣本作為 One-Shot 示例的價(jià)值增益。
優(yōu)點(diǎn)：能夠量化樣本對(duì)訓(xùn)練過(guò)程的價(jià)值，并可通過(guò)聚類等手段進(jìn)一步優(yōu)化。

（5）LESS

基本思想：利用模型梯度評(píng)估樣本對(duì)測(cè)試集損失降低的程度，從而篩選出最有價(jià)值的數(shù)據(jù)。
方法：

使用 LoRA 訓(xùn)練并保存樣本梯度。
從訓(xùn)練數(shù)據(jù)中挑選出與示例數(shù)據(jù)集樣本梯度相似度最高的部分。

3. 現(xiàn)有方法分類與特點(diǎn)

在后訓(xùn)練數(shù)據(jù)篩選的過(guò)程中，可以將方法大致分為兩大類：模型類方法與指標(biāo)類方法。

模型類方法：依賴外部模型能力，計(jì)算開(kāi)銷大。
指標(biāo)類方法：計(jì)算效率高，潛在誤差大。

4. 理想指標(biāo)的探索

在現(xiàn)有篩選方法的基礎(chǔ)上，探索更為理想的篩選指標(biāo)。理想指標(biāo)應(yīng)當(dāng)具備以下特性：

精確性與確定性：既能準(zhǔn)確匹配答案，又能反映模型對(duì)生成內(nèi)容的不確定程度。
動(dòng)態(tài)變化：隨著模型訓(xùn)練的深入，符合條件的數(shù)據(jù)量逐漸減少。

5. 工程化實(shí)踐

在實(shí)際應(yīng)用中，后訓(xùn)練數(shù)據(jù)篩選涉及多個(gè)層面的考量：

數(shù)據(jù)分類：將數(shù)據(jù)按邏輯、認(rèn)知、理解等多個(gè)層次分類。
能力提升：針對(duì)單項(xiàng)能力進(jìn)行優(yōu)化，隨后進(jìn)行跨類別的綜合優(yōu)化，以實(shí)現(xiàn)能力融合。
迭代優(yōu)化：通過(guò)多輪迭代優(yōu)化數(shù)據(jù)配比，逐步提升模型的整體性能。

6. 數(shù)學(xué)數(shù)據(jù)的重要性

使用少量數(shù)學(xué)相關(guān)的微調(diào)數(shù)據(jù)，可以促進(jìn)模型在多項(xiàng)通用任務(wù)上獲得全面的能力提升。

四、問(wèn)答環(huán)節(jié)

Q1：是否存在數(shù)據(jù)量維度的 scaling law，即數(shù)據(jù)量越大，模型效果越好？

A1：在數(shù)據(jù)量和模型效果之間存在類似于模型參數(shù)量維度的 scaling law。但關(guān)鍵在于數(shù)據(jù)質(zhì)量，高質(zhì)量的數(shù)據(jù)是提升模型效果的基礎(chǔ)。對(duì)于不同級(jí)別的模型，所需的高質(zhì)量數(shù)據(jù)量可能存在底線，這一底線需要通過(guò)實(shí)驗(yàn)來(lái)探索。特別是對(duì)于大型模型，由于訓(xùn)練成本高昂，難以重復(fù)多次實(shí)驗(yàn)，因此在實(shí)際操作中需通過(guò)追隨訓(xùn)練等方法逐步優(yōu)化。

Q2：數(shù)學(xué)數(shù)據(jù)的來(lái)源主要是什么？

A2：數(shù)學(xué)數(shù)據(jù)主要來(lái)源于各類題庫(kù)。市面上這類數(shù)據(jù)庫(kù)存有限，建議可通過(guò)小模型從網(wǎng)頁(yè)數(shù)據(jù)中提取數(shù)學(xué)知識(shí)相關(guān)內(nèi)容進(jìn)行擴(kuò)充。

Q3：不同領(lǐng)域的數(shù)據(jù)進(jìn)入模型訓(xùn)練的順序是否影響模型效果？

A3：數(shù)據(jù)進(jìn)入模型訓(xùn)練的順序確實(shí)有影響，但實(shí)際操作中難以全面評(píng)估所有可能的順序?？梢酝ㄟ^(guò)領(lǐng)域細(xì)分和實(shí)驗(yàn)來(lái)探究這一影響，但需要大量算力支持。

Q4：先導(dǎo)模型與主模型在結(jié)構(gòu)上需要怎樣的關(guān)聯(lián)？

A4：先導(dǎo)模型與主模型在結(jié)構(gòu)上可以有所差異，但需要先導(dǎo)模型能夠有效地反映數(shù)據(jù)質(zhì)量。目前尚無(wú)明確理論指導(dǎo)先導(dǎo)模型的選擇，但通常會(huì)選擇在較小參數(shù)量下訓(xùn)練效果較好的模型作為先導(dǎo)模型。

Q5：PDF 文件處理有哪些難點(diǎn)？在選擇或開(kāi)發(fā) PDF 處理工具時(shí)應(yīng)注意什么？

A5：PDF 文件處理的難點(diǎn)在于需要同時(shí)處理公式、表格和不同版面等復(fù)雜元素。有效的 PDF 處理工具應(yīng)具備多種專用模型，如版面解析、表格處理和公式識(shí)別模型。特別需要注意的是，工具應(yīng)擅長(zhǎng)處理公式與文本混排的情況。

責(zé)任編輯：姜華來(lái)源： DataFunTalk

大模型數(shù)據(jù)建設(shè)數(shù)據(jù)配比

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="ppasp"></sub>

<sub id="ppasp"></sub>

<sub id="ppasp"></sub>