自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

波士頓大學「鴨嘴獸-70B」登頂Hugging Face大模型排行榜！高效數(shù)據(jù)集+獨特LoRA微調(diào)是關(guān)鍵

作者：新智元 2023-08-21 10:20:03

人工智能新聞

鴨嘴獸 70B登上Hugging Face上的開源大模型榜一，變強的原因是采用優(yōu)化過的數(shù)據(jù)集訓(xùn)練以及更高效的PEFT和獨特的LoRA微調(diào)。

Hugging Face上的開源大模型排名榜又更新了，這次榮登榜一的是：鴨嘴獸（Platypus 2-70B）！

和現(xiàn)在抱臉開源榜單上大部分的模型一樣，鴨嘴獸是來自波士頓大學的研究人員基于Llama2微調(diào)而來。

同時，鴨嘴獸的進步就像之前所有的開源大模型那樣：在提升性能的同時，使用更少的計算資源和數(shù)據(jù)。

一個13B的鴨嘴獸模型可以在單個A100 GPU使用25k個問題在5小時內(nèi)完成訓(xùn)練。

論文地址：https://arxiv.org/pdf/2308.07317.pdf

根據(jù)研究人員的論文描述，鴨嘴獸70B變強的原因主要是兩點：

1. 編輯數(shù)據(jù)集：刪除相似和重復(fù)的問題

2. 使用LoRA和PEFT對模型進行了優(yōu)化，重點關(guān)注非注意力模塊

而在檢查測試數(shù)據(jù)泄漏和訓(xùn)練數(shù)據(jù)污染方面，鴨嘴獸也做出了自己的貢獻，這為未來的研究提供了有價值的參考。

多快好省的鴨嘴獸

鴨嘴獸主要是通過在一個小而強大的數(shù)據(jù)集Open-Platypus上使用參數(shù)高效調(diào)整（PEFT）和LoRA中對非注意力部分的微調(diào)來改進模型的性能。

與一般專注于專業(yè)領(lǐng)域的模型在微調(diào)是耗時又昂貴不同，鴨嘴獸既做到了在總體上的模型性能提升，同時在特定領(lǐng)域的表現(xiàn)也很優(yōu)秀。

在研究中發(fā)現(xiàn)，領(lǐng)域特定的數(shù)據(jù)集可以提高在所選任務(wù)類別上的性能。當與模型合并結(jié)合使用時，能夠顯著減少訓(xùn)練時間。

開源數(shù)據(jù)集

研究團隊通過Hugging Face向公眾開放了鴨嘴獸的數(shù)據(jù)集Open-Platypus：

Open-Platypus由11個開源數(shù)據(jù)集組成，主要由人為設(shè)計的問題組成，只有大約10%的問題由LLM生成，能夠以最小的微調(diào)時間和成本實現(xiàn)強大的性能。側(cè)重于提高LLM的STEM和邏輯能力。

同時，研究團隊也對這些數(shù)據(jù)集進行了優(yōu)化，這有助于縮小數(shù)據(jù)集并最大限度地減少數(shù)據(jù)冗余。

具體操作包括：

通過相似性排除的方法來最小化記憶，刪除了所有逐字逐句的重復(fù)指令，然后刪除了與訓(xùn)練集中其他指令的SentenceTransformers 嵌入具有80%余弦相似度的指令。

并且默認保留具有更詳細答案的問題與答案對。因為較長的答案很可能對應(yīng)更詳細的解釋和/或逐步解決方案。

解決數(shù)據(jù)污染

研究團隊深入探索了開放式LLM訓(xùn)練集中的污染問題，并介紹了對鴨嘴獸數(shù)據(jù)進行過濾過程。

研究團隊數(shù)據(jù)過濾的方法，其核心是確?；鶞蕼y試題不會無意中泄漏到訓(xùn)練集中，這是為了防止測試數(shù)據(jù)的記憶對基準結(jié)果造成歪曲。

考慮到這一點，在確定是否應(yīng)將問題標記為重復(fù)問題并從訓(xùn)練集中刪除時，應(yīng)留有余地。

在確定可疑問題時允許一定的靈活性，因為查詢有多種措辭方式，同時，通用領(lǐng)域知識可能會阻止問題被視作重復(fù)。

為此，研究團隊開發(fā)了以下啟發(fā)式方法，用于指導(dǎo)人工篩選來自 Open-Platypus 的、與任何基準問題相似度大于 80% 的問題。

研究團隊將潛在問題分為三類：重復(fù)、灰色區(qū)域和相似但不同。但為了謹慎起見，研究團隊會將它們?nèi)繌挠?xùn)練集中刪除。

1. 重復(fù)：

這些問題幾乎是測試集問題的完全復(fù)制品，可能只有一個微小的詞語變化或輕微的重新排列。

這是我們將之定義為“真正”的污染類別，如上表中泄漏問題的數(shù)量所示。這種情況的具體示例如下：

2. 灰色區(qū)域

這組問題被稱為灰色區(qū)域，包括并非完全重復(fù)的問題，屬于常識范疇。

雖然我們將這些問題的最終評判權(quán)留給了開源社區(qū)，但我們認為這些問題往往需要專家知識。

值得注意的是，這類問題包括指令完全相同但答案卻同義的問題：

3. 相似但不同：

最后一類問題包括盡管具有較高的余弦相似性分數(shù)，但答案卻截然不同的問題。

這通常可以歸因于問題結(jié)構(gòu)的細微變化，從而產(chǎn)生完全不同的答案。

下圖中的第一個問題就是一個很好的例子，其中對旋轉(zhuǎn)軸和象限定義的修改極大地改變了最終答案。

微調(diào)與合并模型

在完善數(shù)據(jù)集并對污染進行三重檢查后，研究團隊對模型進行了微調(diào)與合并。

方法主要是低秩逼近（LoRA）訓(xùn)練和參數(shù)高效微調(diào)（PEFT）庫。

與完全微調(diào)不同，LoRA 保留了預(yù)先訓(xùn)練的模型權(quán)重，并在轉(zhuǎn)換層中整合了秩分解矩陣。

這可以減少可訓(xùn)練參數(shù)，并節(jié)省訓(xùn)練的時間和成本。

例如，鴨嘴獸的13B模型使用1個A100 80GB進行了5個小時的微調(diào)，70B模型使用4個A100 80GB進行了22個小時的微調(diào)。

而作為比較基準，斯坦福大學對Alpaca-7B 的全面微調(diào)是在8 個 A100 80GB 上進行的，并花費了3個小時。

研究團隊對模型的微調(diào)最初主要針對的是注意力模塊，如 v_proj、q_proj、k_proj 和 o_proj。

后來，研究人員轉(zhuǎn)向了對gate_proj、down_proj 和 up_proj 模塊的微調(diào)，與注意力模塊相比，除了可訓(xùn)練參數(shù)小于總參數(shù)的 0.1% 時，微調(diào)這些模塊模型的性能表現(xiàn)更好。

為了保持一致性，研究團隊對13B和70B模型統(tǒng)一采用了這一方法，可訓(xùn)練參數(shù)分別為0.27%和0.2%。

唯一的差異在于這些模型的初始學習率。

研究團隊的模型合并策略則旨在評估與Instruct和Beluga等廣泛模型或Camel 等專業(yè)模型合并的協(xié)同效應(yīng)。

研究團隊發(fā)現(xiàn)，合并模型能夠有效拓寬模型的知識基礎(chǔ)，但選擇何種模型進行合并，是廣泛合并還是集中合并，在決定性能結(jié)果方面起著關(guān)鍵作用。

同時，模型合并的效果因測試的具體領(lǐng)域而異。

所有領(lǐng)域的性能提升和下降并不一致，意味著在最終確定合并之前進行特定領(lǐng)域評估的必要性。

鴨嘴獸排名第一

截止到今天的Hugging Face開源LLM排行榜數(shù)據(jù)，Platypus2-70B依舊穩(wěn)坐第一，而它的變體也在眾多LLM中排名前列。

而在13B的尺寸上，鴨嘴獸的表現(xiàn)也同樣亮眼，以平均分63.96脫穎而出，成為13B模型的領(lǐng)跑者。

Hugging Face的Open LLM排行榜

Huggingface的Open LLM排行榜目前是開源社區(qū)使用最多，同時也是參與模型最多的排行榜。

Open LLM排行榜使用Eleuther AI語言模型評估框架，這是一個在大量不同評估任務(wù)上測試生成式語言模型的統(tǒng)一框架，會在 4 個關(guān)鍵基準上對模型進行評估。

1. AI2 ：針對科學問題的推理測試，共有25次測試。

2. HellaSwag：常識推理測試，但對大語言模型來說具有相當?shù)奶魬?zhàn)性，總共進行10次測試。

3. MMLU：用于測量文本模型的多任務(wù)準確性。該測試涵蓋 57 項任務(wù)，包括初等數(shù)學、美國歷史、計算機科學、法律等，總共測試10次。

4. TruthfulQA：用于測試模型復(fù)制網(wǎng)上常見虛假內(nèi)容的傾向。

整個測試框架都是開源的，網(wǎng)友可以直接在本地用這個框架測試模型，或者提交模型給Hugging Face來在線跑分。

全世界大大小小的模型都有機會打榜，成功登頂就可以標榜自己是世界第一。

一個韓國團隊訓(xùn)練的開源模型，在被鴨嘴獸超越之前曾經(jīng)是世界第一。他們就很自豪地將這個成果展示在公司主頁最矚目的地方。

Hugging Face的Open LLM排行榜，不僅能讓技術(shù)人員客觀對比模型的能力，還能給開源社區(qū)模型提供一個展示自己以獲取外部資源，最終進一步發(fā)展的機會。

這也與開源社區(qū)的宗旨一致：

秉持高性價比的理念，允許各種改進模型的嘗試，擁抱開放和共同進步.....

也許這就是開源社區(qū)如此生機勃勃的原因。

責任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="5ulph"><rp id="5ulph"></rp></cite>