自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ChatGPT等模型瘋狂訓(xùn)練,最快2026年消耗盡公開(kāi)文本數(shù)據(jù) 精華

發(fā)布于 2024-6-19 12:09
瀏覽
0收藏

AI發(fā)展科研機(jī)構(gòu)Epochai在官網(wǎng)發(fā)布了一項(xiàng),關(guān)于大模型消耗訓(xùn)練數(shù)據(jù)的研究報(bào)告。


目前,人類公開(kāi)的高質(zhì)量文本訓(xùn)練數(shù)據(jù)集大約有300萬(wàn)億tokens。但隨著ChatGPT等模大型的參數(shù)、功能越來(lái)越強(qiáng)以及過(guò)度訓(xùn)練,對(duì)訓(xùn)練數(shù)據(jù)的需求呈指數(shù)級(jí)增長(zhǎng),預(yù)計(jì)將在2026年——2032年消耗完這些數(shù)據(jù)。


研究人員特別提到了“過(guò)度訓(xùn)練”(Overtraining)是加速消耗訓(xùn)練數(shù)據(jù)進(jìn)程的主要原因之一。例如,Meta最新開(kāi)源的Llama 3的8B版本過(guò)度訓(xùn)練達(dá)到了驚人的100倍,如果其他模型都按照這個(gè)方法來(lái)訓(xùn)練,數(shù)據(jù)可能在2025年就消耗盡了;70B版本還好,過(guò)度訓(xùn)練只有10倍。


所以,無(wú)論是閉源還是開(kāi)源大模型,已經(jīng)進(jìn)入比拼訓(xùn)練數(shù)據(jù)的階段,誰(shuí)的模型學(xué)習(xí)的數(shù)據(jù)更多、維度更廣,即便是小參數(shù)同樣可以戰(zhàn)勝大參數(shù)模型,尤其是在RAG、MoE、MTL等加持下效果更明顯。

ChatGPT等模型瘋狂訓(xùn)練,最快2026年消耗盡公開(kāi)文本數(shù)據(jù)-AI.x社區(qū)

什么是過(guò)度訓(xùn)練

?

過(guò)度訓(xùn)練是在深度學(xué)習(xí)領(lǐng)域,特別是在大模型的訓(xùn)練過(guò)程中,開(kāi)發(fā)者有意讓模型使用的訓(xùn)練數(shù)據(jù)量超過(guò)計(jì)算最優(yōu)模型所需的量。這種做法與傳統(tǒng)的機(jī)器學(xué)習(xí)中避免過(guò)擬合的目標(biāo)不同。


過(guò)擬合發(fā)生在模型過(guò)于復(fù)雜或者訓(xùn)練時(shí)間過(guò)長(zhǎng),以至于模型開(kāi)始記憶訓(xùn)練數(shù)據(jù)中的噪聲而非泛化到未見(jiàn)數(shù)據(jù)。但在大模型的過(guò)度訓(xùn)練是一種優(yōu)化策略,可以節(jié)省推理成本和效率,同時(shí)模型開(kāi)始學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪音和細(xì)節(jié),而不是潛在的數(shù)據(jù)分布。


這就像學(xué)生學(xué)習(xí)歷史一樣,如果只記住大量的日期和事件,而沒(méi)有理解它們之間的聯(lián)系和意義,在面對(duì)新的問(wèn)題或需要綜合分析時(shí),可能無(wú)法給出準(zhǔn)確的邏輯答案。

ChatGPT等模型瘋狂訓(xùn)練,最快2026年消耗盡公開(kāi)文本數(shù)據(jù)-AI.x社區(qū)

此外,大模型過(guò)度訓(xùn)練意味著參數(shù)量與訓(xùn)練數(shù)據(jù)量的比例超過(guò)了Chinchilla縮放定律建議的最佳比例大約D/N比為20。


在Chinchilla縮放定律下,保持這個(gè)比例可以使得模型在固定的訓(xùn)練計(jì)算預(yù)算下達(dá)到最低的可減少損失。不過(guò)開(kāi)發(fā)者可能會(huì)選擇讓這個(gè)比例高于最優(yōu)值,會(huì)讓模型使用更多的數(shù)據(jù)來(lái)訓(xùn)練。


這樣做雖然會(huì)增加訓(xùn)練階段的數(shù)據(jù)需求,但能夠減少模型在推理階段的算力成本。因?yàn)橄鄬?duì)于昂貴GPU,訓(xùn)練數(shù)據(jù)就便宜的多,尤其是在超大規(guī)模參數(shù)模型中的收益更明顯。


Meta最新開(kāi)源的Llama 3系列模型是過(guò)度訓(xùn)練的典型,GPT-3、Flan137B、Falcon-180B等模型也都存在這一現(xiàn)象。

ChatGPT等模型瘋狂訓(xùn)練,最快2026年消耗盡公開(kāi)文本數(shù)據(jù)-AI.x社區(qū)

如果保持在5——10倍的過(guò)度訓(xùn)練量,訓(xùn)練數(shù)據(jù)的消耗度還在可控范圍之內(nèi),如果在100倍以上,將呈指數(shù)級(jí)增長(zhǎng),而Llama 3的8B版本過(guò)度訓(xùn)練就已經(jīng)達(dá)到100倍。


公開(kāi)訓(xùn)練數(shù)據(jù)沒(méi)了,4種其他獲取方法

?

在大模型領(lǐng)域,訓(xùn)練數(shù)據(jù)已經(jīng)和AI算力一樣變得非常重要,是決定模型性能的關(guān)鍵元素之一。雖然可以再生,但消耗速度過(guò)快可能會(huì)蓋過(guò)生成速度出現(xiàn)無(wú)數(shù)據(jù)可用的局面。Epoch ai給出了以下4種獲取訓(xùn)練數(shù)據(jù)的新方法。


1)合成數(shù)據(jù):合成數(shù)據(jù)主要利用深度學(xué)習(xí)來(lái)模擬真實(shí)數(shù)據(jù),來(lái)生成全新的數(shù)據(jù)。這種方法在數(shù)據(jù)短缺的情況下顯得尤為重要,因?yàn)樘峁┝艘环N潛在的無(wú)限擴(kuò)展數(shù)據(jù)集的方式。目前,很多科技巨頭已經(jīng)在使用這個(gè)方法,不過(guò)也有很大的弊端。


合成數(shù)據(jù)的質(zhì)量可能會(huì)比較差并出現(xiàn)過(guò)擬合行,這是因?yàn)樵诤铣傻倪^(guò)程中無(wú)法完全捕捉到真實(shí)數(shù)據(jù)的復(fù)雜性和多樣性。


例如,合成數(shù)據(jù)可能缺乏真實(shí)文本中的某些細(xì)微的語(yǔ)言特征,或者可能過(guò)于依賴模型訓(xùn)練時(shí)使用的特定數(shù)據(jù)集,導(dǎo)致生成的文本缺乏多樣性。此外,合成數(shù)據(jù)可能會(huì)引入一些新的偏差,這些偏差可能會(huì)影響模型的性能。


2)多模態(tài)和跨領(lǐng)域數(shù)據(jù)學(xué)習(xí):多模態(tài)學(xué)習(xí)是一種涉及多種數(shù)據(jù)類型的學(xué)習(xí)方法,它不僅限于文本,還包括圖像、視頻、音頻等多種形式的數(shù)據(jù)。通過(guò)結(jié)合不同模態(tài)的信息,可以更全面地理解和處理復(fù)雜的任務(wù)。


例如,GPT-4o、GPT-4V、Gemini等可以同時(shí)處理文本描述和相應(yīng)的圖片,以更好地理解場(chǎng)景和語(yǔ)境。這也是目前多模態(tài)大模型的主要訓(xùn)練數(shù)據(jù)方法之一。


此外,開(kāi)發(fā)者也可以將目光投向其他領(lǐng)域,例如,金融市場(chǎng)數(shù)據(jù)、科學(xué)數(shù)據(jù)庫(kù)、基因數(shù)據(jù)庫(kù)等。根據(jù)預(yù)測(cè),基因領(lǐng)域的數(shù)據(jù)增長(zhǎng)每年保持在幾百萬(wàn)億甚至上千萬(wàn)億,可以產(chǎn)生源源不斷的真實(shí)數(shù)據(jù)。


3)私有數(shù)據(jù):根據(jù)Epoch ai調(diào)查數(shù)據(jù)顯示,目前全球文本數(shù)據(jù)包含私有總量大概在3100萬(wàn)億tokens。而公開(kāi)數(shù)據(jù)只有300萬(wàn)億,也就是說(shuō)還有90%的私有數(shù)據(jù)可以使用。

ChatGPT等模型瘋狂訓(xùn)練,最快2026年消耗盡公開(kāi)文本數(shù)據(jù)-AI.x社區(qū)

目前,已經(jīng)有科技公司開(kāi)始從這方面下手,例如,OpenAI成立了一個(gè)“數(shù)據(jù)聯(lián)盟”專門搜集高質(zhì)量、沒(méi)公開(kāi)過(guò)的私有數(shù)據(jù),在訓(xùn)練GPT系列和最新的前沿模型。


但使用私有數(shù)據(jù)很有難度,首先,隱私和安全性是最大的顧慮,非公共數(shù)據(jù)往往包含敏感信息,如果用于模型訓(xùn)練,可能會(huì)引發(fā)隱私泄露的風(fēng)險(xiǎn)。例如,社交媒體上的私人對(duì)話、個(gè)人郵箱中的通信記錄,這些都是用戶不希望被公開(kāi)的數(shù)據(jù)。


其次,獲取和整合非公共數(shù)據(jù)的過(guò)程可能非常復(fù)雜。與公共數(shù)據(jù)相比,非公共數(shù)據(jù)分散在不同的平臺(tái)和系統(tǒng)中,缺乏統(tǒng)一的標(biāo)準(zhǔn)和格式。這就需要開(kāi)發(fā)新的技術(shù)和方法來(lái)收集、清洗和標(biāo)準(zhǔn)化這些數(shù)據(jù),以便它們能夠被有效地用于大模型訓(xùn)練


4)與真實(shí)世界實(shí)時(shí)交互學(xué)習(xí):可以讓模型通過(guò)與真實(shí)世界的直接互動(dòng)來(lái)學(xué)習(xí)和進(jìn)步。與傳統(tǒng)的基于靜態(tài)數(shù)據(jù)集的訓(xùn)練方法不同,這種學(xué)習(xí)方法強(qiáng)調(diào)的是大模型的自主性和適應(yīng)性。在這種模式下,模型不僅僅是被動(dòng)地接收數(shù)據(jù),而是主動(dòng)地探索環(huán)境,通過(guò)與人類交互來(lái)獲得知識(shí)和技能。


但這種方法對(duì)模型的架構(gòu)、性能、算力要求較高,需要具備一定的自主性和決策能力。大模型需能夠準(zhǔn)確理解用戶輸入的指令或問(wèn)題,并根據(jù)這些指令在現(xiàn)實(shí)世界中采取行動(dòng)。

例如,大模型可能需要根據(jù)用戶的請(qǐng)求來(lái)推薦餐廳,這不僅需要它理解用戶的偏好,還需要它能夠訪問(wèn)和分析實(shí)時(shí)的餐廳信息。


此外,與真實(shí)世界互動(dòng)的學(xué)習(xí)還需要模型具備處理不確定性的能力?,F(xiàn)實(shí)世界是復(fù)雜多變的,充滿了不確定性和偶然性。


模型需要能夠適應(yīng)這些不確定性,從不斷變化的環(huán)境中學(xué)習(xí)并做出合理的決策。這就涉及到概率推理、風(fēng)險(xiǎn)評(píng)估和決策制定等高級(jí)認(rèn)知功能。

ChatGPT等模型瘋狂訓(xùn)練,最快2026年消耗盡公開(kāi)文本數(shù)據(jù)-AI.x社區(qū)

企業(yè)、開(kāi)發(fā)者們珍惜訓(xùn)練數(shù)據(jù)吧,就像我們珍惜水資源一樣。不要等著枯竭的那一天,望著荒漠干流淚。


本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/hJi8XlhtQrKnCKj_VxBQrg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦