自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="l8isg"></blockquote>}

<blockquote id="l8isg"><i id="l8isg"><video id="l8isg"></video></i></blockquote>

<sup id="l8isg"></sup>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Open LLM榜單再次刷新，比Llama 2更強(qiáng)的「鴨嘴獸」來了

作者：機(jī)器之心 2023-08-17 11:34:55

人工智能新聞

作為 LLaMa-2 的微調(diào)擴(kuò)展，Platypus 保留了基礎(chǔ)模型的許多限制條件，并因其有針對(duì)性的訓(xùn)練而引入了特定的挑戰(zhàn)。它共享 LLaMa-2 的靜態(tài)知識(shí)庫，而知識(shí)庫可能會(huì)過時(shí)。

為了挑戰(zhàn) OpenAI 的 GPT-3.5 和 GPT-4 等閉源模型的主導(dǎo)地位，一系列開源模型力量正在崛起，包括 LLaMa、Falcon 等。最近，Meta AI 發(fā)布了 LLaMa-2 模型，被譽(yù)為開源領(lǐng)域最強(qiáng)的大模型，很多研究者也在此基礎(chǔ)上搭建自己的模型。比如，StabilityAI 利用 Orca 風(fēng)格的數(shù)據(jù)集對(duì) Llama2 70B 模型進(jìn)行了微調(diào)，打造出了 StableBeluga2，在 Huggingface 的 Open LLM 排行榜中也取得了不錯(cuò)的成績。

最近，Open LLM 榜單的排行又發(fā)生了新的變化，一個(gè)名叫 Platypus（鴨嘴獸）的模型登上了榜首。

概括地說，Platypus 同樣是基于 Llama 2 微調(diào)。來自波士頓大學(xué)的作者使用了 PEFT 和 LoRA 以及數(shù)據(jù)集 Open-Platypus 進(jìn)行優(yōu)化。

在一篇論文中，作者對(duì) Platypus 進(jìn)行了詳細(xì)的介紹：

論文地址：https://arxiv.org/abs/2308.07317

本文的貢獻(xiàn)主要有以下幾點(diǎn)：

Open-Platypus 是一個(gè)小規(guī)模的數(shù)據(jù)集，由公共文本數(shù)據(jù)集的精選子集組成。該數(shù)據(jù)集由 11 個(gè)開源數(shù)據(jù)集組成，重點(diǎn)是提高 LLM 的 STEM 和邏輯知識(shí)。它主要由人類設(shè)計(jì)的問題組成，只有 10% 的問題是由 LLM 生成的。Open-Platypus 的主要優(yōu)勢在于其規(guī)模和質(zhì)量，它可以在很短的時(shí)間內(nèi)實(shí)現(xiàn)非常高的性能，并且微調(diào)的時(shí)間和成本都很低。具體來說，在單個(gè) A100 GPU 上使用 25k 個(gè)問題訓(xùn)練 13B 模型只需 5 個(gè)小時(shí)。
描述了相似性排除過程，減少數(shù)據(jù)集的大小，并減少數(shù)據(jù)冗余。
詳細(xì)分析了始終存在的開放 LLM 訓(xùn)練集與重要 LLM 測試集中包含的數(shù)據(jù)相污染的現(xiàn)象，并介紹了作者避免這一隱患的訓(xùn)練數(shù)據(jù)過濾過程。
介紹了對(duì)專門的微調(diào) LoRA 模塊進(jìn)行選擇和合并的過程。

Open-Platypus 數(shù)據(jù)集

目前，作者在 Hugging Face 上發(fā)布了 Open-Platypus 數(shù)據(jù)集：

污染問題

本文方法優(yōu)先考慮防止基準(zhǔn)測試問題泄漏到訓(xùn)練集中，以避免僅通過記憶產(chǎn)生結(jié)果偏差。作者努力追求準(zhǔn)確性的同時(shí)，也認(rèn)識(shí)到標(biāo)記重復(fù)問題時(shí)需要靈活性，因?yàn)閱栴}的提出方式多種多樣，而且會(huì)受到通用領(lǐng)域知識(shí)的影響。為了管理潛在的泄漏，作者精心設(shè)計(jì)了啟發(fā)式方法，用于手動(dòng)過濾 Open-Platypus 中與基準(zhǔn)問題余弦嵌入相似度超過 80% 的問題。他們將潛在泄漏分為三類：(1) 重復(fù)；(2) 灰色區(qū)域；(3) 相似但不相同。并且，為謹(jǐn)慎起見，他們將所有組別都排除在訓(xùn)練集之外。

重復(fù)

這幾乎完全復(fù)制了測試題集的內(nèi)容，可能只是稍稍改動(dòng)了一下單詞或稍作重新排列。根據(jù)上表中泄漏問題的數(shù)量，這是作者認(rèn)為真正屬于污染的唯一類別。具體例子如下：

灰色區(qū)域

以下問題被稱為灰色區(qū)域，包括并非完全重復(fù)、屬于常識(shí)范疇的問題。雖然作者將這些問題的最終評(píng)判權(quán)留給了開源社區(qū)，但他們認(rèn)為這些問題往往需要專家知識(shí)。需要注意的是，這類問題包括指令完全相同，但答案卻同義的問題：

相似但不相同

這些問題的具有較高的相似度，但由于問題之間有著細(xì)微的變化，在答案上存在著顯著差異。

微調(diào)與合并

在完善數(shù)據(jù)集之后，作者將重點(diǎn)放在兩種方法上：低秩近似（LoRA）訓(xùn)練和參數(shù)高效微調(diào)（PEFT）庫。與完全的微調(diào)不同，LoRA 保留了預(yù)訓(xùn)練的模型權(quán)重，并在 transformer 層中整合了秩分解矩陣。這就減少了可訓(xùn)練參數(shù)，節(jié)省了訓(xùn)練時(shí)間和成本。起初，微調(diào)主要針對(duì)注意力模塊，如 v_proj、q_proj、k_proj 和 o_proj。后來，根據(jù) He et al. 的見解，過渡到 gate_proj、down_proj 和 up_proj 模塊。除了可訓(xùn)練參數(shù)小于總參數(shù)的 0.1% 時(shí)，這些模塊均顯示出了更好的效果。作者對(duì) 13B 和 70B 模型統(tǒng)一采用了這一方法，結(jié)果可訓(xùn)練參數(shù)分別為 0.27% 和 0.2%。唯一的差異在于這些模型的初始學(xué)習(xí)率。

結(jié)果

作者將 Platypus 與其他的 SOTA 模型進(jìn)行了比較。根據(jù) 2023 年 8 月 10 日的 Hugging Face Open LLM 排行榜數(shù)據(jù)，Platypus2-70Binstruct 變體表現(xiàn)優(yōu)于其他競爭對(duì)手，以 73.13 的平均分穩(wěn)居榜首：

值得注意的是，Stable-Platypus2-13B 模型以 63.96 的平均分成為 130 億參數(shù)模型中的佼佼者：

局限性

作為 LLaMa-2 的微調(diào)擴(kuò)展，Platypus 保留了基礎(chǔ)模型的許多限制條件，并因其有針對(duì)性的訓(xùn)練而引入了特定的挑戰(zhàn)。它共享 LLaMa-2 的靜態(tài)知識(shí)庫，而知識(shí)庫可能會(huì)過時(shí)。此外，還存在生成不準(zhǔn)確或不恰當(dāng)內(nèi)容的風(fēng)險(xiǎn)，尤其是在提示不明確的情況下。雖然 Platypus 在 STEM 和英語邏輯方面得到了增強(qiáng)，但它對(duì)其他語言的熟練程度并不可靠，而且可能不一致。它偶爾也會(huì)產(chǎn)生帶有偏見或有害的內(nèi)容。作者表示已經(jīng)努力減少這些問題，但挑戰(zhàn)依然存在，尤其是在非英語語言方面。

Platypus 可能會(huì)被濫用于惡意活動(dòng)，這也是一個(gè)令人擔(dān)憂的問題。開發(fā)人員應(yīng)在部署前對(duì)其應(yīng)用程序進(jìn)行安全測試。Platypus 在其主要領(lǐng)域之外可能存在局限性，因此用戶應(yīng)謹(jǐn)慎行事，并考慮進(jìn)行額外的微調(diào)以獲得最佳性能。用戶應(yīng)確保 Platypus 的訓(xùn)練數(shù)據(jù)與其他基準(zhǔn)測試集之間沒有重疊。作者對(duì)數(shù)據(jù)污染問題非常謹(jǐn)慎，避免與在有污點(diǎn)的數(shù)據(jù)集上訓(xùn)練的模型合并。雖然經(jīng)過清理的訓(xùn)練數(shù)據(jù)中確認(rèn)沒有污染，但也不排除有些問題漏掉了。如需全面了解這些限制，請(qǐng)參閱論文中的限制部分。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="fqw00"></cite>

<s id="fqw00"><li id="fqw00"></li></s>