自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

擊敗GPT-4o、僅次于o1!英偉達重磅開源超強大模型--Nemotron 精華

發(fā)布于 2024-10-17 11:03
瀏覽
0收藏

全球AI領(lǐng)導者英偉達(Nvidia)開源了超強大模型——Llama-3.1-Nemotron-70B-Instruct。


根據(jù)測試數(shù)據(jù)顯示,這個模型已經(jīng)擊敗GPT-4o、GPT-4turbo、Gemma-2、Gemini-1.5、Claude-3.5 sonnet等140多個開閉源模型,僅次于OpenAI發(fā)布的最新模型o1。


Nemotron的基礎(chǔ)模型是基于Llama-3.1-70B開發(fā)而成,這個沒什么新奇。但在訓練的過程使用了一種新的混合訓練方法,將Bradley-Terry和Regression一起用于訓練獎勵模型。


值得一提的是,英偉達把Nemotron的訓練數(shù)據(jù)集也開源了,這對于開發(fā)同類型或超過Nemotron的模型非常重要,因為這個是使用混合訓練方法的關(guān)鍵所在。

擊敗GPT-4o、僅次于o1!英偉達重磅開源超強大模型--Nemotron-AI.x社區(qū)

開源地址:https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward

數(shù)據(jù)集:https://huggingface.co/datasets/nvidia/HelpSteer2

在線demo:https://huggingface.co/chat/


有網(wǎng)友表示,英偉達熱衷于不斷開源超強模型,一方面有大量資金資助他們的科研人員研發(fā),另外主要目的還是為了賣GPU以及培養(yǎng)開發(fā)生態(tài)。而Meta依托他的社交帝國,在商業(yè)化和資金方面都不愁。


最愁的便是那些大模型初創(chuàng)企業(yè)了,錢拼不過這些巨頭,商業(yè)落地和名氣更不用提。所以,很多小企業(yè)可能會因為巨頭的碾壓,很快會出現(xiàn)資金斷裂等各種問題。

擊敗GPT-4o、僅次于o1!英偉達重磅開源超強大模型--Nemotron-AI.x社區(qū)

很高興看到AI領(lǐng)域的競爭,正在以驚人的速度推動行業(yè)向前發(fā)展。

擊敗GPT-4o、僅次于o1!英偉達重磅開源超強大模型--Nemotron-AI.x社區(qū)

這可是重磅開源。

擊敗GPT-4o、僅次于o1!英偉達重磅開源超強大模型--Nemotron-AI.x社區(qū)

為了新模型,買兩個4090爽一下吧。

擊敗GPT-4o、僅次于o1!英偉達重磅開源超強大模型--Nemotron-AI.x社區(qū)

模型是免費的,但運行的硬件可不免費啊。

擊敗GPT-4o、僅次于o1!英偉達重磅開源超強大模型--Nemotron-AI.x社區(qū)

我正在測試這個模型,我是一個高級AI用戶說說使用心得:在商業(yè)寫作方面,似乎比Claude3和ChatGPT聰明一些。但它依然會犯一些錯誤,相比于普通的3.1 70b Instruct,確實更聰明。

擊敗GPT-4o、僅次于o1!英偉達重磅開源超強大模型--Nemotron-AI.x社區(qū)

Nvidia可以以1000倍更低的成本實現(xiàn)這一點。如果Nvidia真的原意這么做,那么將無人能與之競爭。

擊敗GPT-4o、僅次于o1!英偉達重磅開源超強大模型--Nemotron-AI.x社區(qū)

創(chuàng)新混合訓練方法

在訓練大模型的過程中,為了確保模型在實際使用中能夠準確地理解并遵循用戶的提示指令,準確進行翻譯、文本生成、問答等任務(wù),獎勵模型發(fā)揮了很重要的作用,主要通過為模型的輸出打分,指導模型生成更高質(zhì)量的回答來實現(xiàn)。


目前,主流的獎勵模型方法主要有Bradley-Terry和Regression兩種:Bradley-Terry風格的獎勵模型起源于統(tǒng)計學中的排名理論,通過最大化被選擇響應(yīng)和被拒絕響應(yīng)之間的獎勵差距。這種方法強調(diào)在給定的提示下,用戶會選擇哪個響應(yīng),從而為模型提供了一種直接的、基于偏好的反饋。


Regression則借鑒了心理學中的評分量表,通過預(yù)測特定提示下響應(yīng)的分數(shù)來訓練模型。這種方法允許模型對響應(yīng)的質(zhì)量進行更細致的評估,但可能不如基于偏好的方法直觀。

擊敗GPT-4o、僅次于o1!英偉達重磅開源超強大模型--Nemotron-AI.x社區(qū)

但這兩種方法都有明顯的缺點,Bradley-Terry需要用戶在兩個響應(yīng)中選擇一個;而回歸風格的模型需要評分數(shù)據(jù),用戶需要為每個響應(yīng)打分才能幫助模型提升性能。所以,英偉達直接把兩個模型的優(yōu)點放在一起使用來解決這個難題。


首先是需要開發(fā)一個包含評分和偏好注釋的數(shù)據(jù)集HELPSTEER2-PREFERENCE。研究人員是在HELPSTEER2基礎(chǔ)上添加偏好注釋。


這些偏好注釋不僅包括用戶在兩個響應(yīng)中選擇一個的偏好方向,還包括用戶對這種偏好的強度評分。為了確保數(shù)據(jù)的質(zhì)量和可解釋性,還要求注釋者為他們的偏好提供書面說明。

在訓練這種新型混合方法時,研究人員使用AdamW優(yōu)化器來訓練模型,通過引入權(quán)重衰減和梯度裁剪來提高訓練的穩(wěn)定性和效率。


為了進一步提高模型性能,使用了ExPO在訓練過程中對模型的權(quán)重進行外推,可以進一步提高模型的性能??梢允鼓P驮谟柧殨r更加關(guān)注那些差異較大的響應(yīng)對,從而提高模型的區(qū)分能力。

此外,研究人員還進行了廣泛的超參數(shù)搜索,以找到最佳的學習率和KL懲罰項。這些超參數(shù)對于模型的訓練至關(guān)重要,因為它們直接影響到模型的收斂速度和最終性能。

HELPSTEER2-PREFERENCE數(shù)據(jù)集

為了開發(fā)這個多元化滿足新的混合訓練方法數(shù)據(jù)集,在數(shù)據(jù)注釋的過程中,每一對回應(yīng)都經(jīng)過3—5名標注者的評價。這些標注者需要從多個維度對每個回應(yīng)進行評分,包括有用性、準確性、連貫性、復(fù)雜性和冗長程度等。為了更好地理解背后的原因,標注者還需要提供簡短的文字說明,解釋為何選擇了某個回應(yīng)作為更好的答案。這種方法不僅增強了數(shù)據(jù)的透明度,也為后續(xù)分析提供了豐富的上下文信息。


研究人員還使用了嚴格的數(shù)據(jù)預(yù)處理步驟來保證數(shù)據(jù)質(zhì)量。例如,他們會識別出每個任務(wù)中相似度最高的三個偏好注釋,然后取這三個注釋的平均值并四舍五入到最接近的整數(shù),以此作為該任務(wù)的整體偏好得分。


同時,為了排除那些標注者意見分歧較大的樣本,研究人員們會過濾掉那些注釋之間差異超過一定范圍的任務(wù)。這些措施共同作用,有效提升了數(shù)據(jù)的可靠性和一致性。

擊敗GPT-4o、僅次于o1!英偉達重磅開源超強大模型--Nemotron-AI.x社區(qū)

根據(jù)測試數(shù)據(jù)顯示,使用HELPSTEER2-PREFERENCE數(shù)據(jù)集訓練的模型性能非常強,在RewardBench評測中達到了94.1的高分,超過了同期幾乎所有其他模型的表現(xiàn)。


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/KNwEMztb6ZO-azQKRMSZVw??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦