自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

反轉(zhuǎn)!Claude 3.5超大杯沒有訓(xùn)練失敗,最新爆料:內(nèi)部自留,用于合成數(shù)據(jù)和RL訓(xùn)練

人工智能 新聞
semianalysis分析師爆料,Claude 3.5超大杯被藏起來,只用于內(nèi)部數(shù)據(jù)合成以及強化學(xué)習(xí)獎勵建模。

傳聞反轉(zhuǎn)了,Claude 3.5 Opus沒有訓(xùn)練失敗。

只是Anthropic訓(xùn)練好了,暗中壓住不公開。

semianalysis分析師爆料,Claude 3.5超大杯被藏起來,只用于內(nèi)部數(shù)據(jù)合成以及強化學(xué)習(xí)獎勵建模。

Claude 3.5 Sonnet就是如此訓(xùn)練而來。

圖片

使用這種方法,推理成本沒有明顯提升,但是模型性能更好了。

這么好用的模型,為啥不發(fā)布?

不劃算。

semianalysis分析,相較于直接發(fā)布,Anthropic更傾向于用最好的模型來做內(nèi)部訓(xùn)練,發(fā)布Claude 3.5 Sonnet就夠了。

這多少讓人不敢相信。

圖片

但是文章作者之一Dylan Patel也曾是最早揭秘GPT-4架構(gòu)的人。

圖片

除此之外,文章還分析了最新發(fā)布的o1 Pro、神秘Orion的架構(gòu)以及這些先進模型中蘊藏的新規(guī)律。

比如它還指出,搜索是Scaling的另一維度,o1沒有利用這個維度,但是o1 Pro用了。

網(wǎng)友:它暗示了o1和o1 Pro之間的區(qū)別,這也是之前沒有被披露過的。

圖片

新舊范式交迭,大模型還在加速

總體來看,semianalysis的最新文章分析了當前大模型開發(fā)在算力、數(shù)據(jù)、算法上面臨的挑戰(zhàn)與現(xiàn)狀。

核心觀點簡單粗暴總結(jié),就是新范式還在不斷涌現(xiàn),AI進程沒有減速。

文章開篇即點明,Scaling law依舊有效。

盡管有諸多聲音認為,隨著新模型在基準測試上的提升不夠明顯,現(xiàn)有訓(xùn)練數(shù)據(jù)幾乎用盡以及摩爾定律放緩,大模型的Scaling Law要失效了。

但是頂尖AI實驗室、計算公司還在加速建設(shè)數(shù)據(jù)中心,并向底層硬件砸更多錢。

比如AWS斥巨資自研了Trainium2芯片,花費65億美元為Anthropic準備40萬塊芯片。

Meta也計劃在2026年建成耗電功率200萬千瓦的數(shù)據(jù)中心。

很明顯,最能深刻影響AI進程的人們,依舊相信Scaling Law。

為什么呢?

因為新范式在不斷形成,并且有效。這使得AI開發(fā)還在繼續(xù)加速。

首先在底層計算硬件上,摩爾定律的確在放緩,但是英偉達正在引領(lǐng)新的計算定律。

8年時間,英偉達的AI芯片計算性能已經(jīng)提升了1000倍。

同時,通過芯片內(nèi)部和芯片之間的并行計算,以及構(gòu)建更大規(guī)模的高帶寬網(wǎng)絡(luò)域可以使得芯片更好在網(wǎng)絡(luò)集群內(nèi)協(xié)同工作,特別是推理方面。

圖片

其次在數(shù)據(jù)方面也出現(xiàn)了新的范式。

已有公開數(shù)據(jù)消耗殆盡后,合成數(shù)據(jù)提供了新的解決途徑。

比如用GPT-4合成數(shù)據(jù)訓(xùn)練其他模型是很多實驗團隊都在使用的技術(shù)方案。

而且模型越好,合成數(shù)據(jù)質(zhì)量就越高。

也就是在這里,Claude 3.5 Opus不發(fā)布的內(nèi)幕被曝光。

它承擔(dān)了為Claude 3.5 Sonnet合成訓(xùn)練數(shù)據(jù)、替代人類反饋的工作。

事實證明,合成數(shù)據(jù)越多,模型就越好。更好的模型能提供更好的合成數(shù)據(jù),也能提供更好的偏好反饋,這能推動人類開發(fā)出更好的模型。

具體來看,semianalysisi還舉了更多使用綜合數(shù)據(jù)的例子。

包括拒絕采樣、模式判斷、長上下文數(shù)據(jù)集幾種情況。

比如Meta將Python代碼翻譯成PHP,并通過語法解析和執(zhí)行來確保數(shù)據(jù)質(zhì)量,將這些額外的數(shù)據(jù)輸入SFT數(shù)據(jù)集,解釋為何缺少公共PHP代碼。

圖片

比如Meta還使用Llama 3作為拒絕采樣器,判斷偽代碼,并給代碼進行評級。一些時候,拒絕抽樣和模式判斷一起使用。這種方式成本更低,不過很難實現(xiàn)完全自動化。

在所有拒絕抽樣方法中,“判官”模型越好,得到數(shù)據(jù)集的質(zhì)量就越高。

這種模式,Meta今年剛剛開始用,而OpenAI、Anthropic已經(jīng)用了一兩年

在長上下文方面,人類很難提供高質(zhì)量的注釋,AI處理成為一種更有效的方法。

然后在RLHF方面,專門收集大量的偏好數(shù)據(jù)難且貴。

對于Llama 3,DPO(直接偏好優(yōu)化)比PPO(最近策略優(yōu)化)更有效且穩(wěn)定,使用的計算也少。但是使用DPO就意味著偏好數(shù)據(jù)集是非常關(guān)鍵的。

如OpenAI等大型公司想到的一種辦法是從用戶側(cè)收集,有時ChatGPT會給出2個回答并要求用戶選出更喜歡的一個,因此免費收集了很多反饋。

還有一種新的范式是讓AI替人類進行反饋——RLAIF。

圖片

它主要分為兩個階段。第一階段模型先根據(jù)人類編寫的標準對自己的輸出進行修改,然后創(chuàng)建出一個修訂-提示對的數(shù)據(jù)集,使用這些數(shù)據(jù)集通過SFT進行微調(diào)。

第二階段類似于RLHF,但是這一步完全沒有人類偏好數(shù)據(jù)。

這種方法最值得關(guān)注的一點是,它可以在許多不同領(lǐng)域擴展。

圖片

最后,值得重點關(guān)注的一個新范式是通過搜索來擴展推理計算。

文章中表明,搜索是擴展的另一個維度。OpenAI o1沒有利用這個維度,但是o1 Pro用了。

o1在測試時階段不評估多條推理路徑,也不進行任何搜索。

Self-Consistency / Majority Vote就是一種搜索方法。

這種方法中,只需在模型中多次運行提示詞,產(chǎn)生多個相應(yīng),根據(jù)給定的樣本數(shù)量,從相應(yīng)中選出出現(xiàn)頻率最高的來作為正確答案。

圖片

除此之外,文章還進一步分析了為什么說OpenAI的Orion訓(xùn)練失敗也是不準確的。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-12-16 09:00:00

AI架構(gòu)訓(xùn)練

2024-09-24 12:21:45

2022-06-13 11:18:08

合成數(shù)據(jù)AIML

2024-04-18 08:38:15

LLM數(shù)據(jù)訓(xùn)練模型

2021-03-23 23:17:18

AI人工智能

2024-03-27 13:32:00

AI數(shù)據(jù)

2023-02-22 09:37:14

AI模型

2023-08-01 15:46:18

數(shù)據(jù)

2022-11-08 07:40:55

2021-10-11 14:30:50

人工智能數(shù)據(jù)技術(shù)

2022-08-11 08:00:00

機器學(xué)習(xí)合成數(shù)據(jù)深度學(xué)習(xí)

2025-02-27 13:45:00

2022-09-19 15:37:51

人工智能機器學(xué)習(xí)大數(shù)據(jù)

2024-07-29 07:04:00

大模型AI訓(xùn)AI人工智能

2023-02-23 07:46:48

學(xué)習(xí)模型數(shù)據(jù)倉庫

2025-02-13 09:45:31

2024-06-19 13:02:01

2020-09-25 09:52:48

機器學(xué)習(xí)人工智能計算機

2024-01-16 14:23:32

大數(shù)據(jù)人工智能AI

2022-08-23 14:56:04

合成數(shù)據(jù)數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號