自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<dfn id="ibfsk"></dfn>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用

發(fā)布于 2025-3-5 10:55

瀏覽

0收藏

今天給大家?guī)?lái)一篇探討大模型預(yù)訓(xùn)練與微調(diào)之間關(guān)系的文章，主要通過微調(diào)預(yù)訓(xùn)練階段各個(gè)checkpoint，來(lái)發(fā)現(xiàn)預(yù)訓(xùn)練本身或?qū)ο掠挝⒄{(diào)有哪些影響。

大模型在預(yù)訓(xùn)練過程中的性能如何變化？
更多步數(shù)的預(yù)訓(xùn)練對(duì)下游微調(diào)有何影響？
大模型微調(diào)學(xué)到了什么，又忘記了什么？

探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用-AI.x社區(qū)

Paper: https://arxiv.org/abs/2408.06663

由于目前開源模型中，開放全量checkpoints的模型較少，并且實(shí)驗(yàn)成本較大，以下分析結(jié)果主要基于OLMo-1B模型（同時(shí)訓(xùn)練細(xì)節(jié)、預(yù)訓(xùn)練數(shù)據(jù)、微調(diào)數(shù)據(jù)都公開了）進(jìn)行實(shí)驗(yàn)，微調(diào)數(shù)據(jù)詳細(xì)如下表所示，

探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用-AI.x社區(qū)

大模型在預(yù)訓(xùn)練過程中的性能如何變化？

探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用-AI.x社區(qū)

針對(duì)大模型在預(yù)訓(xùn)練過程中的checkpoints，進(jìn)行下游任務(wù)zero-shot或few-shot測(cè)試，如上圖可以發(fā)現(xiàn)，大模型隨著訓(xùn)練步數(shù)的增加，并不是所有任務(wù)數(shù)據(jù)的效果會(huì)隨之提高，部分任務(wù)數(shù)據(jù)在整個(gè)預(yù)訓(xùn)練過程中，基本沒有變化。效果提高的任務(wù)數(shù)據(jù)，也主要在訓(xùn)練前期提高較多，后期趨于平穩(wěn)。

模型在預(yù)訓(xùn)練過程中，更多在學(xué)習(xí)知識(shí)，即使學(xué)習(xí)更多，可能也不會(huì)使用。

更多步數(shù)的預(yù)訓(xùn)練對(duì)下游微調(diào)有何影響？

探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用-AI.x社區(qū)

探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用-AI.x社區(qū)

如上圖所示，可以發(fā)現(xiàn)，在預(yù)訓(xùn)練時(shí)表現(xiàn)較好的任務(wù)數(shù)據(jù)，在微調(diào)過程中并不會(huì)得到改善，即在預(yù)訓(xùn)練過程中已經(jīng)獲取了知識(shí)信息，微調(diào)則沒有幫助。

但在預(yù)訓(xùn)練階段表現(xiàn)不好的任務(wù)數(shù)據(jù)，微調(diào)模型的每個(gè)checkpoint都會(huì)有明顯的改善，一般微調(diào)收益先增加再減少。

探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用-AI.x社區(qū)

那么，如果模型在某一任務(wù)上一定需要下游微調(diào)時(shí)，可能早停的checkpoint效果更優(yōu)。

大模型微調(diào)學(xué)到了什么，又忘記了什么？

從任務(wù)格式、任務(wù)遷移和領(lǐng)域知識(shí)三個(gè)維度來(lái)分析微調(diào)學(xué)到了哪些內(nèi)容。

任務(wù)格式：利用三種任務(wù)格式（默認(rèn)格式、IO格式、Intruct格式）驗(yàn)證大模型在不同checkpoint上的性能。發(fā)現(xiàn)：在預(yù)訓(xùn)練早期，微調(diào)格式與預(yù)訓(xùn)練格式一致可以獲取更好的效果，隨著預(yù)訓(xùn)練步數(shù)增加，大模型對(duì)格式的敏感性會(huì)隨之下降，可以變的更加靈活。微調(diào)階段可以教會(huì)大模型去適應(yīng)任務(wù)格式。

探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用-AI.x社區(qū)

任務(wù)遷移：很多研究已經(jīng)發(fā)現(xiàn)模型微調(diào)會(huì)導(dǎo)致某些任務(wù)的改進(jìn)，但另一些任務(wù)的退化。通過實(shí)驗(yàn)發(fā)現(xiàn)，在生成任務(wù)上微調(diào)，在其他生成任務(wù)和分類任務(wù)上驗(yàn)證基本無(wú)下降；在分類任務(wù)上微調(diào)，在其他分類任務(wù)上無(wú)下降，但在分類任務(wù)上有明顯下降。

探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用-AI.x社區(qū)

探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用-AI.x社區(qū)

領(lǐng)域知識(shí)：模型在學(xué)習(xí)其他能力之后，是否一定會(huì)遺忘微調(diào)之前擁有的領(lǐng)域知識(shí)。如下圖所示，對(duì)于不同任務(wù)的結(jié)論不一致，所有NLI數(shù)據(jù)在MNLI上微調(diào)后，都會(huì)得到提高；但在Paws微調(diào)后，其他釋義檢測(cè)數(shù)據(jù)集均有下降。意味著遺忘和學(xué)習(xí)都發(fā)生。

探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用-AI.x社區(qū)

本文轉(zhuǎn)載自NLP工作站，作者：劉聰NLP

標(biāo)簽

預(yù)訓(xùn)練

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

基于預(yù)訓(xùn)練模型的知識(shí)圖譜嵌入編輯

mb5f8eba9bdb0af ? 2605瀏覽 ? 0回復(fù)
費(fèi)米悖論與收益遞減，超級(jí)人工智能與人類社會(huì)將會(huì)怎樣相互作用

xuxiangda ? 2462瀏覽 ? 0回復(fù)
值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法

angel ? 5403瀏覽 ? 0回復(fù)
與ChatGPT的供應(yīng)鏈數(shù)字化探討

ceesoft ? 3599瀏覽 ? 0回復(fù)
探討 | 大模型在傳統(tǒng)NLP任務(wù)的使用姿勢(shì)

NLP工作站 ? 3335瀏覽 ? 0回復(fù)
預(yù)訓(xùn)練大語(yǔ)言模型對(duì)時(shí)間序列預(yù)測(cè)真的有用嗎？去掉預(yù)訓(xùn)練LLM效果反而提升

海因斯DK ? 4157瀏覽 ? 0回復(fù)
LFPLM：基于預(yù)訓(xùn)練語(yǔ)言模型的通用靈活負(fù)荷預(yù)測(cè)框架

AIRoobt ? 3642瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么？

AI探索時(shí)代 ? 6980瀏覽 ? 0回復(fù)
你真的了解預(yù)訓(xùn)練嗎？預(yù)訓(xùn)練與微調(diào)的區(qū)別是什么？

AI探索時(shí)代 ? 6102瀏覽 ? 0回復(fù)
大模型的核心之一——大模型預(yù)訓(xùn)練之?dāng)?shù)據(jù)預(yù)處理

AI探索時(shí)代 ? 4194瀏覽 ? 0回復(fù)
REGMIX: 作為語(yǔ)言模型預(yù)訓(xùn)練的回歸數(shù)據(jù)配比

sbf_2000 ? 2873瀏覽 ? 0回復(fù)
OLMoE: 開源的MoE語(yǔ)言模型(預(yù)訓(xùn)練&效果)

sbf_2000 ? 2301瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么？

AI探索時(shí)代 ? 7510瀏覽 ? 0回復(fù)
探討 | 大模型在傳統(tǒng)NLP任務(wù)的使用姿勢(shì)

NLP工作站 ? 2831瀏覽 ? 0回復(fù)
關(guān)于大模型微調(diào)與訓(xùn)練的問題，大模型訓(xùn)練的難點(diǎn)在哪里？

AI探索時(shí)代 ? 2176瀏覽 ? 0回復(fù)
為什么預(yù)訓(xùn)練大模型要使用無(wú)監(jiān)督學(xué)習(xí)的方式？

AI探索時(shí)代 ? 2365瀏覽 ? 0回復(fù)
深入理解預(yù)訓(xùn)練與微調(diào)，為什么需要預(yù)訓(xùn)練，什么是微調(diào)？

AI探索時(shí)代 ? 3738瀏覽 ? 0回復(fù)
云計(jì)算與大模型訓(xùn)練的結(jié)合

AI探索時(shí)代 ? 1732瀏覽 ? 0回復(fù)
FineMedLM-o1: 基于監(jiān)督微調(diào)與測(cè)試時(shí)訓(xùn)練的醫(yī)學(xué)推理增強(qiáng)型大語(yǔ)言模型

頓數(shù)AI ? 2583瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM實(shí)戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致 8天前發(fā)布
Llama4 模型細(xì)節(jié) & 效果實(shí)測(cè) 2025-04-09 07:07:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：來(lái)了！Kimi開源Moonlight-16B-A3B的MoE模型??！

下一篇：文心一言4.5和X1免費(fèi)，馬上安排實(shí)測(cè)，來(lái)看看效果如何！

社區(qū)精華內(nèi)容

目錄