自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="y7zkz"></cite>

<u id="y7zkz"></u>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

FineTuneBench：商業(yè)精細(xì)調(diào)整API能夠如何融入LLMs中的新知識？

發(fā)布于 2024-11-14 14:42

瀏覽

0收藏

研究背景

這篇文章研究了商業(yè)微調(diào)API在將新知識注入大型語言模型（LLMs）和更新現(xiàn)有知識方面的效果。盡管OpenAI和Google等提供商提供的商業(yè)LLMs微調(diào)API具有靈活的應(yīng)用適應(yīng)性，但其有效性尚不清楚。

該問題的研究難點(diǎn)包括：微調(diào)方法的不透明性、缺乏統(tǒng)一的基準(zhǔn)評估、用戶對超參數(shù)優(yōu)化的限制以及模型在處理新知識和更新知識時(shí)的泛化能力有限。

相關(guān)工作：

該問題的研究相關(guān)工作包括監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)從人類反饋、檢索增強(qiáng)生成等方法，但這些方法在知識注入方面的效果尚不明確。此外，之前的研究主要集中在開源LLMs上，而對大型商業(yè)LLMs的微調(diào)研究較少。

研究方法

這篇論文提出了FineTuneBench，一個(gè)評估框架和數(shù)據(jù)集，用于理解商業(yè)微調(diào)API在學(xué)習(xí)和更新知識方面的效果。具體來說，

數(shù)據(jù)集構(gòu)建：FineTuneBench包含四個(gè)領(lǐng)域的數(shù)據(jù)集：最新新聞、虛構(gòu)人物、醫(yī)療指南和代碼。每個(gè)領(lǐng)域有150個(gè)訓(xùn)練問題和50個(gè)測試問題。

FineTuneBench：商業(yè)精細(xì)調(diào)整API能夠如何融入LLMs中的新知識？-AI.x社區(qū)

模型選擇：評估了五個(gè)模型：三個(gè)來自O(shè)penAI的GPT模型（gpt-4o-mini、gpt-4o、gpt-3.5-turbo）和兩個(gè)來自Google的Gemini模型（gemini-1.5-flash、gemini-1.5-pro）。
微調(diào)方法：使用各自的微調(diào)服務(wù)對模型進(jìn)行微調(diào)。OpenAI僅允許指定學(xué)習(xí)率、批量大小和訓(xùn)練輪數(shù)，而Google Cloud還允許指定微調(diào)方法的適配器大小。所有分析中，除了訓(xùn)練輪數(shù)外，其他微調(diào)特定超參數(shù)保持默認(rèn)值。
知識注入技術(shù)：在最新新聞數(shù)據(jù)集中，采用了四種技術(shù)來誘導(dǎo)知識獲?。褐苯訂柎饘?、掩碼、完成和無提示完成。

實(shí)驗(yàn)設(shè)計(jì)

數(shù)據(jù)收集：從2024年9月1日至9月30日隨機(jī)抽取了2000篇美聯(lián)社的新聞文章，確保這些文章不出現(xiàn)在任何評估模型的預(yù)訓(xùn)練數(shù)據(jù)中。然后使用GPT-4o生成問題和答案對，并通過質(zhì)量控制步驟篩選出最終的問題/答案對。
實(shí)驗(yàn)設(shè)置：在每個(gè)數(shù)據(jù)集上，模型在原始問題和修改后的問題上進(jìn)行訓(xùn)練和評估。對于最新新聞數(shù)據(jù)集，還包括重新措辭和日期更改的修改。對于虛構(gòu)人物數(shù)據(jù)集，生成了基于虛構(gòu)人物的描述和相關(guān)問題。對于醫(yī)療指南和代碼數(shù)據(jù)集，收集了最新的醫(yī)療指南和代碼庫，并使用Claude Sonnet-3.5生成問題和答案對。
訓(xùn)練過程：固定批量大小為1，默認(rèn)學(xué)習(xí)率參數(shù)。對于新知識數(shù)據(jù)集，模型訓(xùn)練1、10、20和30輪。對于更新知識數(shù)據(jù)集，模型訓(xùn)練1、5、10、15和20輪。

結(jié)果與分析

新知識任務(wù)：在所有新知識數(shù)據(jù)集上，OpenAI模型幾乎可以完美地記住問答對，但在重新措辭或派生問題上表現(xiàn)較差，表明許多情況下記憶并未轉(zhuǎn)化為真正的知識獲取。Gemini模型的表現(xiàn)更差，無法準(zhǔn)確記住問答對。

FineTuneBench：商業(yè)精細(xì)調(diào)整API能夠如何融入LLMs中的新知識？-AI.x社區(qū)

更新知識任務(wù)：在更新知識數(shù)據(jù)集上，商業(yè)微調(diào)模型的泛化性能更低。OpenAI模型在重新措辭的編程問題上平均準(zhǔn)確率為10%，在醫(yī)療數(shù)據(jù)集上的臨床情景測試問題上的準(zhǔn)確率為40%。

FineTuneBench：商業(yè)精細(xì)調(diào)整API能夠如何融入LLMs中的新知識？-AI.x社區(qū)

泛化能力：盡管模型在訓(xùn)練初期表現(xiàn)出強(qiáng)烈的記憶能力，但在泛化任務(wù)上的性能提升較慢。Gemini模型在20或30輪訓(xùn)練后仍未顯著提高性能。

FineTuneBench：商業(yè)精細(xì)調(diào)整API能夠如何融入LLMs中的新知識？-AI.x社區(qū)

替代訓(xùn)練技術(shù)：使用掩碼、提示完成和無提示完成的替代訓(xùn)練技術(shù)未能提高泛化能力，并且在原始問答對上的性能也較低。

FineTuneBench：商業(yè)精細(xì)調(diào)整API能夠如何融入LLMs中的新知識？-AI.x社區(qū)

總體結(jié)論

這篇論文通過FineTuneBench評估框架和數(shù)據(jù)集，系統(tǒng)地分析了商業(yè)微調(diào)API在學(xué)習(xí)和更新知識方面的效果。結(jié)果表明，盡管微調(diào)可以提高模型的某些能力，但在大多數(shù)情況下，模型在處理新知識和更新知識時(shí)的泛化能力有限。特別是，Gemini模型的微調(diào)效果最差，無法有效學(xué)習(xí)新知識或更新現(xiàn)有知識。未來的研究可以擴(kuò)展評估范圍，并探索不同的超參數(shù)組合以提高模型的性能。

優(yōu)點(diǎn)與創(chuàng)新

引入FineTuneBench：論文首次提出了FineTuneBench，這是一個(gè)評估框架和數(shù)據(jù)集，用于理解商業(yè)微調(diào)API在學(xué)習(xí)和更新知識方面的能力。

多模型和多API評估：論文評估了五個(gè)前沿LLM（包括GPT-4o和Gemini 1.5 Pro）使用OpenAI和Google Vertex AI的商業(yè)微調(diào)API的效果。多樣化的數(shù)據(jù)集：FineTuneBench數(shù)據(jù)集包含四個(gè)領(lǐng)域的知識注入測試：最新新聞、虛構(gòu)人物、醫(yī)療指南和代碼。

關(guān)鍵問題及回答

問題1：FineTuneBench數(shù)據(jù)集是如何構(gòu)建的？各個(gè)數(shù)據(jù)集的構(gòu)建過程有何不同？

FineTuneBench數(shù)據(jù)集包含四個(gè)領(lǐng)域的數(shù)據(jù)集：最新新聞、虛構(gòu)人物、醫(yī)療指南和代碼。每個(gè)領(lǐng)域有150個(gè)訓(xùn)練問題和50個(gè)測試問題，總共625個(gè)訓(xùn)練問題和1075個(gè)測試問題。

最新新聞數(shù)據(jù)集：從2024年9月1日至9月30日隨機(jī)抽取了2000篇美聯(lián)社的新聞文章，確保這些文章不出現(xiàn)在任何評估模型的預(yù)訓(xùn)練數(shù)據(jù)中。然后使用GPT-4o生成問題和答案對，并通過質(zhì)量控制步驟篩選出最終的問題/答案對。此外，還包括重新措辭和日期更改的修改。虛構(gòu)人物數(shù)據(jù)集：生成了基于虛構(gòu)人物的描述和相關(guān)問題。每個(gè)虛構(gòu)人物的描述包含六個(gè)事實(shí)（如體重、身高、年齡、職業(yè)、喜歡的顏色和城市），并基于這些事實(shí)生成六個(gè)問題/答案對。還包括基于這些事實(shí)生成的衍生問題（如二次問題和比較問題）。醫(yī)療指南數(shù)據(jù)集：收集了最新的醫(yī)療指南和代碼庫，并使用Claude Sonnet-3.5生成問題和答案對。每個(gè)指南更新對應(yīng)一個(gè)問題/答案對，并要求模型將這些更新應(yīng)用到臨床情景中，生成新的問題和答案對。代碼數(shù)據(jù)集：從Scikit-Learn的代碼庫中生成了與代碼相關(guān)的問答對。每個(gè)Python文件生成一個(gè)問題和答案對，并測試模型對對象或函數(shù)名稱更改后的理解。

問題2：在微調(diào)過程中，使用了哪些技術(shù)來誘導(dǎo)知識獲??？這些技術(shù)在最新新聞數(shù)據(jù)集上的表現(xiàn)如何？

在最新新聞數(shù)據(jù)集上，采用了四種技術(shù)來誘導(dǎo)知識獲?。褐苯訂柎饘?、掩碼、完成和無提示完成。

直接問答對：這是最基本的訓(xùn)練方法，模型在提示（系統(tǒng)提示）下生成問題和答案對。

掩碼：在句子中掩碼掉答案部分，模型需要根據(jù)上下文推斷出答案。

無提示完成：沒有系統(tǒng)提示，模型需要自行理解事實(shí)并完成句子。

這些技術(shù)在最新新聞數(shù)據(jù)集上的表現(xiàn)有所不同。直接問答對的效果最好，模型在重新措辭和日期更改問題上的表現(xiàn)較差，表明記憶并未轉(zhuǎn)化為真正的知識獲取。掩碼和完成技術(shù)在某些情況下有所改進(jìn)，但仍未能顯著提高模型的泛化能力。無提示完成的效果最差，模型在重新措辭和日期更改問題上的表現(xiàn)仍然不理想。

問題3：在更新知識任務(wù)中，商業(yè)微調(diào)模型的泛化性能為何較低？與學(xué)習(xí)新知識相比，更新知識有哪些額外的挑戰(zhàn)？

在更新知識任務(wù)中，商業(yè)微調(diào)模型的泛化性能較低，主要有以下幾個(gè)原因：

知識沖突：更新知識需要模型替換現(xiàn)有的知識，并在各種實(shí)例中傳播這些變化。這可能會導(dǎo)致模型在處理新舊知識時(shí)產(chǎn)生沖突，從而影響其泛化能力。

一致性要求：例如，當(dāng)函數(shù)的名稱更改時(shí)，模型不僅需要記住新的名稱，還需要在所有代碼實(shí)例中一致地應(yīng)用這個(gè)更改。這種一致性要求在訓(xùn)練過程中難以實(shí)現(xiàn)。

模型先驗(yàn)：醫(yī)療問題的答案通常是概率性的（如列出多個(gè)建議），更新模型的答案需要引導(dǎo)其在已知答案中選擇。而編程問題的答案通常是確定性的，更改名稱需要模型完全記住新的名稱。

與學(xué)習(xí)新知識相比，更新知識有以下額外的挑戰(zhàn)：

知識擴(kuò)散：更新知識需要在多個(gè)實(shí)例中傳播變化，這增加了模型的復(fù)雜性和計(jì)算成本。一致性維護(hù)：模型需要確保在所有相關(guān)實(shí)例中保持一致的知識，這在訓(xùn)練過程中難以實(shí)現(xiàn)。先驗(yàn)知識的利用：醫(yī)療知識具有一定的分布性，模型可以通過選擇已知答案來更新；而編程知識則需要完全記住新的名稱，增加了學(xué)習(xí)的難度。

本文轉(zhuǎn)載自 ??AI論文解讀??，作者：柏企

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

初創(chuàng)公司如何從零開始訓(xùn)練出優(yōu)秀的LLMs

lintoms ? 2639瀏覽 ? 0回復(fù)
OpenAI在API新增”項(xiàng)目“功能，可精細(xì)化管理模型

Aceryt ? 2249瀏覽 ? 0回復(fù)
如何采用最少的代碼啟動LLM?API服務(wù)器

51CTO內(nèi)容精選 ? 3567瀏覽 ? 0回復(fù)
大模型（LLM） API的使用，免費(fèi)獲取試用API方法，付費(fèi)API計(jì)費(fèi)方式

AIRoobt ? 1.2w瀏覽 ? 0回復(fù)
視覺語言模型能夠“看見”嗎？

lintoms ? 2100瀏覽 ? 0回復(fù)
中科大提出UniMEL框架 | 革新知識圖譜，引領(lǐng)多模態(tài)實(shí)體鏈接新紀(jì)元

AI論文解讀 ? 3895瀏覽 ? 0回復(fù)
如何檢測并盡量減少AI模型中的幻覺？

51CTO內(nèi)容精選 ? 3456瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# 部署 LLMs 前如何計(jì)算與優(yōu)化 GPU 內(nèi)存需求？

Baihai_IDP ? 2102瀏覽 ? 0回復(fù)
LLMs 如何處理相互矛盾的指令？指令遵循優(yōu)先級實(shí)驗(yàn)

Baihai_IDP ? 2111瀏覽 ? 0回復(fù)
R2AG:將檢索信息融入RAG，提升問答系統(tǒng)準(zhǔn)確性

大模型自然語言處理 ? 1784瀏覽 ? 0回復(fù)
AI賦能教育：人工智能在教育中的八大應(yīng)用實(shí)例

風(fēng)云2002_1 ? 9908瀏覽 ? 0回復(fù)
圖數(shù)據(jù)庫的剪枝在大型語言模型中的知識表示

51CTO內(nèi)容精選 ? 1534瀏覽 ? 0回復(fù)
如何利用 DeepSeek-R1 本地部署強(qiáng)大的推理模型：從 ChatGPT 風(fēng)格界面到 API 集成

Halo咯咯 ? 2755瀏覽 ? 0回復(fù)
LLMs的知識蒸餾：技術(shù)和應(yīng)用

柏企閱文 ? 2379瀏覽 ? 0回復(fù)
大型語言模型（LLMs）如何能夠從長達(dá)數(shù)十年的符號 AI 項(xiàng)目中受益

lintoms ? 1466瀏覽 ? 0回復(fù)
RAG系統(tǒng)中的“幕后英雄”：重排器如何提升信息檢索的精準(zhǔn)度？

Halo咯咯 ? 808瀏覽 ? 0回復(fù)
【人工智能】AI如何精準(zhǔn)匹配RAG知識庫？揭秘混合檢索的奧秘！

唐克 ? 1418瀏覽 ? 0回復(fù)
【人工智能】通過ChatGPT、Claude與通義千問 API 實(shí)現(xiàn)智能語料知識圖譜的自動化構(gòu)建（詳細(xì)教程）

唐克 ? 515瀏覽 ? 0回復(fù)
在變工況軸承故障診斷中如何簡單引入先驗(yàn)知識？

步驚云_32 ? 356瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

深度剖析：為何擴(kuò)散模型會成為語言模型的未來？ 2025-03-14 07:45:15發(fā)布
一文讀懂 RAG-Gym：用過程監(jiān)督優(yōu)化推理與搜索智能體 2025-03-04 10:43:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：智能對話新紀(jì)元：大模型推理服務(wù)

下一篇： IdentifyMe：一個(gè)具有挑戰(zhàn)性的長文本指代消解基準(zhǔn)測試

社區(qū)精華內(nèi)容

目錄

<sub id="fd492"><i id="fd492"></i></sub>

<sub id="fd492"></sub>