自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-5、 Opus 3.5為何遲遲不發(fā)?新猜想:已誕生,被蒸餾成小模型來賣

人工智能 新聞
「從現(xiàn)在開始,基礎(chǔ)模型可能在后臺運行,讓其他模型能夠完成它們自己無法完成的壯舉——就像一個老隱士從秘密山洞中傳遞智慧。」

最近幾個月,從各路媒體、AI 社區(qū)到廣大網(wǎng)民都在關(guān)注 OpenAI 下一代大模型「GPT-5」的進展。

我們都知道 OpenAI 在研究新模型,新模型可能遭遇了困難無法按計劃推出,但如果有人說 GPT-5 已經(jīng)在某個地方塑造世界了,你會怎么想?

假設(shè)如下:OpenAI 已經(jīng)構(gòu)建了 GPT-5,但將其應(yīng)用在了內(nèi)部,因為這樣做投資回報遠高于將其發(fā)布給數(shù)百萬 ChatGPT 用戶。此外,他們獲得的投資回報不是金錢。如你所見,這個想法很簡單,難就難在如何將那些細枝末節(jié)的線索聯(lián)系起來。最近,技術(shù)分析師 Alberto Romero 深入探討了這個思路。

首先澄清一下:這并不是 100% 可靠的猜測。證據(jù)是公開的,但沒有泄密或內(nèi)幕傳言證實該想法是對的。作者沒有獲得獨家信息 —— 如果有,也無論如何都會簽署保密協(xié)議。不過,至少從邏輯上講,這個猜想看起來很有說服力。

讓我們看看這篇文章是怎么說的。

圖片

原文地址:https://www.thealgorithmicbridge.com/p/this-rumor-about-gpt-5-changes-everything

一、Opus 3.5 的神秘消失

在介紹 GPT-5 之前,我們必須先去拜訪它的遠親,同樣失蹤的 Anthropic 的 Claude Opus 3.5。

如您所知,海外三大人工智能實驗室 OpenAI、Google DeepMind 和 Anthropic 提供了一系列覆蓋各價位段、延遲與性能范圍的大模型服務(wù)。OpenAI 提供了 GPT-4o、GPT-4o mini 以及 o1 和 o1-mini 等;Google DeepMind 提供 Gemini Ultra、Pro 和 Flash;而 Anthropic 有 Claude Opus、Sonnet 和 Haiku。

他們的目標很明確:迎合盡可能多的客戶。有些人優(yōu)先考慮頂級性能,而另一些人則尋求負擔得起、足夠好的解決方案,至此一切都很好。

但 2024 年 10 月發(fā)生了一件奇怪的事情。每個人都期待 Anthropic 宣布推出 Claude Opus 3.5 以回應(yīng) GPT-4o(于 2024 年 5 月推出)。然而到 10 月 22 日,他們發(fā)布了 Claude Sonnet 3.5 的更新版本(人們開始稱之為 Sonnet 3.6)。Opus 3.5 卻不見了,似乎 Anthropic 沒有了 GPT-4o 的直接競爭對手。到這里研究進度似乎出現(xiàn)了問題。以下是人們所說的內(nèi)容以及 Opus 3.5 實際發(fā)生的事情:

  • 10 月 28 日,有傳言稱 Sonnet 3.6 是…… 備受期待的 Opus 3.5 訓練失敗的中間檢查點。r/ClaudeAI subreddit 上出現(xiàn)了一篇文章稱 Claude 3.5 Opus 已被廢棄,并附有指向 Anthropic 模型頁面的鏈接。截至今天,該頁面沒有提及 Opus 3.5。有人猜測,刪除 Opus 3.5 是為了在即將到來的融資輪之前保持投資者的信任而采取的戰(zhàn)略舉措。
  • 11 月 11 日,Anthropic 首席執(zhí)行官 Dario Amodei 在 Lex Fridman 播客上否認他們已經(jīng)放棄 Opus 3.5,從而消除了謠言:「沒有給出確切的日期,但據(jù)我們所知,計劃仍然是推出 Claude 3.5 Opus?!箲B(tài)度謹慎,但是確認。
  • 11 月 13 日,彭博社的報道證實了之前的傳言:「經(jīng)過訓練后,Anthropic 發(fā)現(xiàn) 3.5 Opus 在評估中的表現(xiàn)優(yōu)于舊版本,但考慮到模型的大小以及構(gòu)建和運行的成本,其優(yōu)勢并沒有達到應(yīng)有的程度?!笵ario 似乎沒有給出日期,因為盡管 Opus 3.5 的訓練運行沒有失敗,但其結(jié)果卻不盡如人意。請注意,重點是相對于性能的成本,而不僅僅是性能。
  • 12 月 11 日,半導體專家 Dylan Patel 和他的 Semianalysis 團隊給出了最后的情節(jié)轉(zhuǎn)折,提出了一個將所有數(shù)據(jù)點編織成一個連貫故事的解釋:「Anthropic 完成了對 Claude 3.5 Opus 的訓練,它表現(xiàn)良好,并且能夠適當擴展…… 但 Anthropic 并沒有發(fā)布它。這是因為 Anthropic 沒有公開發(fā)布,而是使用 Claude 3.5 Opus 來生成合成數(shù)據(jù)并進行獎勵建模,從而與用戶數(shù)據(jù)一起顯著改進了 Claude 3.5 Sonnet?!?/span>

簡而言之,Anthropic 確實訓練了 Claude Opus 3.5 大模型。他們放棄了這個名字,因為它還不夠好。Dario 相信不同的訓練嘗試可以改善結(jié)果,因此避免給出發(fā)布日期。彭博社證實結(jié)果比現(xiàn)有模型更好,但不足以證明推理成本是合理的。Dylan 和他的團隊發(fā)現(xiàn)了神秘的 Sonnet 3.6 和失蹤的 Opus 3.5 之間的聯(lián)系:后者正在內(nèi)部用于生成合成數(shù)據(jù)以提高前者的性能。

圖片

二、更好的模型變得更小,更便宜?

使用強大、昂貴的模型生成數(shù)據(jù)來提升略弱但更便宜的模型性能的過程被稱為蒸餾。這是一種常見做法。這種技術(shù)允許 AI 實驗室將他們的小型模型提升到僅靠額外預訓練無法達到的水平。

蒸餾有多種方法,但我們不會深入討論。你需要記住的是,作為「教師」的強大模型將「學生」模型從 [小、便宜、快速]+ 弱變成 [小、便宜、快速]+ 強大。蒸餾將強大模型變成金礦。Dylan 解釋了為什么 Anthropic 對 Opus 3.5-Sonnet 3.6 這對模型這樣做是有意義的:


推理成本(新 Sonnet 與舊 Sonnet 相比)沒有顯著變化,但模型性能提升了。為什么要發(fā)布 3.5 Opus 呢?從成本角度來看,相比發(fā)布經(jīng)過 3.5 Opus 進一步后訓練的 3.5 Sonnet,這樣做在經(jīng)濟上是不合理的。

我們又回到了成本問題:蒸餾能在保持推理費用低廉的同時提升性能。這立即解決了彭博社報道的主要問題。Anthropic 選擇不發(fā)布 Opus 3.5 不僅僅是因為性能不佳,而是因為它在內(nèi)部更有價值。(Dylan 說這就是為什么開源社區(qū)能這么快趕上 GPT-4—— 他們直接從 OpenAI 的金礦中獲取黃金。)

最驚人的發(fā)現(xiàn)是,Sonnet 3.6 不僅僅是好 —— 它達到了 SOTA 水平,比 GPT-4o 更好。由于從 Opus 3.5 蒸餾(可能還有其他原因,五個月在 AI 時間里很長),Anthropic 的中端模型超越了 OpenAI 的旗艦產(chǎn)品。突然間,高成本作為高性能的代理指標被證明是錯誤的。

「bigger is better」怎么了?OpenAI 的 CEO Sam Altman 警告說這個時代結(jié)束了。一旦頂級實驗室變得神秘,小心翼翼地保護他們珍貴的知識,他們就停止分享數(shù)字。參數(shù)數(shù)量不再是可靠的衡量標準,我們明智地將注意力轉(zhuǎn)向基準性能。OpenAI 最后一次正式披露的模型大小是 2020 年的 GPT-3,擁有 1750 億參數(shù)。到 2023 年 6 月,有傳聞稱 GPT-4 是一個專家混合模型,總計約 1.8 萬億參數(shù)。Semianalysis 后來在詳細評估中證實了這一點,得出 GPT-4 有 1.76 萬億參數(shù)的結(jié)論。這是 2023 年 7 月的事。

直到 2024 年 12 月,那是在一年半后,EpochAI(一個專注于 AI 未來影響的組織)的研究員 Ege Erdil 在文章《Frontier language models have become much smaller》中估計,領(lǐng)先的 AI 模型(包括 GPT-4o 和 Sonnet 3.6)比 GPT-4 小得多(盡管兩者在基準測試中都優(yōu)于 GPT-4):


……GPT-4o 和 Claude 3.5 Sonnet 等當前的前沿模型的參數(shù)量可能比 GPT-4 小一個數(shù)量級:4o 大約有 2000 億參數(shù),3.5 Sonnet 大約有 4000 億參數(shù)…… 考慮到我得出這個數(shù)字的粗略方式,這些估計值可能有 2 倍的誤差。


他為什么能在實驗室沒有發(fā)布任何架構(gòu)細節(jié)的情況下得出這些數(shù)值?他深入解釋了原因。但這個原因?qū)ξ覀儊碚f并不重要。重要的是迷霧正在散去:Anthropic 和 OpenAI 似乎都在遵循類似的軌跡。他們最新的模型不僅更好,而且比上一代更小更便宜。我們知道 Anthropic 的做法是將 Opus 3.5 蒸餾成 Sonnet 3.6。但 OpenAI 是怎么做的呢?

圖片

三、AI 實驗室背后的推動力普遍存在

人們可能認為 Anthropic 的蒸餾方法源自自身特有的情況 —— 即 Opus 3.5 訓練結(jié)果令人失望。但實際上,Anthropic 的情況絕不是特例。Google DeepMind 和 OpenAI 也報告稱,他們最新的訓練結(jié)果不太理想。(需要強調(diào),不理想并不等于模型更差。)對我們來說,造成這種情況的原因并不重要:數(shù)據(jù)不足導致的收益遞減、Transformer 架構(gòu)固有的限制、預訓練 Scaling Law 陷入停滯等。無論如何,Anthropic 的特有情況實際上相當普遍。

但還記得彭博社的報道嗎:只有把成本放在一起考慮時,才能判斷性能指標的好壞?是的,Ege Erdil 解釋了原因:ChatGPT/GPT-4 熱潮之后對 AI 的需求激增。

生成式 AI 的普及速度如此之快,以至于實驗室難以跟上,導致虧損不斷增長。這種狀況促使他們所有人都要降低推理成本(訓練運行只做一次,但推理成本會隨著用戶數(shù)量和使用量的增加而成比例增長)。如果每周有 3 億人使用你的 AI 產(chǎn)品,運營支出可能突然會要了你的命。

促使 Anthropic 將 Sonnet 3.6 從 Opus 3.5 中蒸餾出來的原因不管是什么,都會以好幾倍的程度壓在 OpenAI 身上。蒸餾之所以有用,是因為它能將兩個普遍存在的難題變成一個優(yōu)勢:通過向用戶提供更小的模型可以解決推理成本問題,同時還能避免在不發(fā)布更大模型時因為性能不佳而被公眾苛責。

Ege Erdil 認為 OpenAI 可能選擇了另一種方法:過度訓練(overtraining)。也就是使用超過計算最優(yōu)(compute-optimal)程度的數(shù)據(jù)量來訓練小型模型:「當推理成為你在模型上支出的主要或主導部分時,更好的做法是…… 在更多的 token 上訓練較小的模型?!沟^度訓練不再可行。AI 實驗室已經(jīng)在預訓練上把高質(zhì)量數(shù)據(jù)源消耗一空。伊隆?馬斯克和 Ilya Sutskever 最近幾周都承認了這一點。

回到蒸餾,Ege Erdil 總結(jié)說:「我認為 GPT-4o 和 Claude 3.5 Sonnet 很可能都是從更大模型中蒸餾出來的?!?/span>

到目前為止,所有證據(jù)都表明 OpenAI 正在以同樣的方式(蒸餾)出于同樣的原因(性能不佳 / 成本控制)做 Anthropic 對 Opus 3.5 所做的事情(訓練和隱藏)。這是一個重要發(fā)現(xiàn)。但先別急,Opus 3.5 仍在隱藏。OpenAI 的類似模型在哪里?它在該公司的地下室里藏著嗎?你能猜出它的名字嗎...?

圖片

四、深入無人踏足之地,必須自己開路

我的分析始于 Anthropic 的 Opus 3.5 故事,因為有很多關(guān)于它的信息。然后我用蒸餾的概念搭建了通向 OpenAI 的橋梁,并解釋了為什么推動 Anthropic 的潛在力量也在推動 OpenAI。然而,我們的理論中出現(xiàn)了一個新障礙:因為 OpenAI 是先驅(qū),他們可能面臨著 Anthropic 等競爭對手尚未遇到的障礙。

其中一大障礙便是訓練 GPT-5 的硬件要求。Sonnet 3.6 與 GPT-4o 相當,但發(fā)布時間滯后了五個月。我們應(yīng)該假設(shè) GPT-5 處于另一個層次。更強大也更龐大。推理成本也更高,訓練成本也是如此??赡苓\行一次訓練就需要 5 億美元。用現(xiàn)有的硬件有可能完成這樣的事情嗎?

Ege 的答案是可以。為 3 億人提供服務(wù)是難以承受之重,但訓練卻是小菜一碟:


「理論上,即使我們現(xiàn)有的硬件也足以支持比 GPT-4 大得多的模型:例如,一個放大 50 倍的 GPT-4 版本,擁有大約 100 萬億參數(shù),可能每百萬輸出 token 的成本為 3000 美元,輸出速度為每秒 10-20 個 token。然而,要實現(xiàn)這一點,這些大型模型必須為使用它們的客戶帶來大量經(jīng)濟價值?!?/p>

然而,即使是微軟、谷歌和亞馬遜(分別是 OpenAI、DeepMind 和 Anthropic 的投資方)也無法為這種推理成本找到合理理由。那么他們?nèi)绾谓鉀Q這個問題的?很簡單:只有當他們計劃向公眾提供數(shù)萬億參數(shù)的模型時,他們才需要「釋放大量經(jīng)濟價值」。所以他們選擇不放出那些模型。

他們訓練它。他們意識到它「比他們目前的產(chǎn)品表現(xiàn)更好?!沟麄儽仨毥邮芩高€沒有進步到足以證明保持它運行的巨大成本是合理的?!梗犉饋硎煜幔窟@是《華爾街日報》一個月前關(guān)于 GPT-5 的報道。與彭博社關(guān)于 Opus 3.5 的說法驚人地相似。)

他們報告并不太好的結(jié)果(或多或少準確,他們總是可以在這里把玩敘事)。他們將其作為大型教師模型保留在內(nèi)部,用于蒸餾更小的學生模型。然后他們發(fā)布這些更小模型。我們得到了 Sonnet 3.6 和 GPT-4o 以及 o1,并且非常高興它們便宜且相當好。即使我們越來越不耐煩,但對 Opus 3.5 和 GPT-5 的期待依然沒有改變。而他們的口袋就繼續(xù)像金礦一樣閃閃發(fā)光。

五、微軟、OpenAI 與 AGI

當我在調(diào)查中達到這一點時,我仍然不太相信。當然,所有的證據(jù)都表明,這對 OpenAI 來說是完全合理的,但在合理 —— 甚至可能 —— 和真實之間存在著 gap。我不會為你填補這個 gap—— 畢竟,這只是推測。但我可以進一步加強論據(jù)。

有什么額外的證據(jù)表明 OpenAI 是這樣運作的嗎?除了性能不佳和虧損增加之外,他們還有其他理由扣留 GPT-5 嗎?從 OpenAI 高管關(guān)于 GPT-5 的公開聲明中我們能得出什么?反復推遲模型發(fā)布,他們不是在冒著犧牲聲譽的風險嗎?畢竟,OpenAI 是 AI 革命的代表,而 Anthropic 在其陰影下運作。Anthropic 可以負擔得起這些舉動,但 OpenAI 呢?也許這么做并非沒有代價。

說到錢,讓我們挖出一些關(guān)于 OpenAI - 微軟合作關(guān)系的相關(guān)細節(jié)。首先是每個人都知道的:AGI 條款。在 OpenAI 關(guān)于其結(jié)構(gòu)的博客文章中,他們有五個治理條款,描述了其運作方式、與非營利組織的關(guān)系、與董事會的關(guān)系以及與微軟的關(guān)系。第五條將 AGI 定義為「在大多數(shù)具有經(jīng)濟價值的工作中超越人類的高度自主系統(tǒng)」,并規(guī)定一旦 OpenAI 董事會聲稱已經(jīng)實現(xiàn) AGI,「這樣的系統(tǒng)將被排除在與微軟的 IP 許可和其他商業(yè)條款之外,這些條款只適用于 AGI 之前的技術(shù)。」

不用說,兩家公司都不希望合作關(guān)系破裂。OpenAI 設(shè)定了這個條款,但會做任何必要的事情來避免遵守它。其中一種方式是推遲發(fā)布可能被標記為 AGI 的系統(tǒng)?!傅?GPT-5 肯定不是 AGI,」你會說。而我會說這里有第二個事實,幾乎沒有人知道:OpenAI 和微軟對 AGI 有一個秘密定義:AGI 是一個「可以產(chǎn)生至少 1000 億美元利潤的 AI 系統(tǒng)。」這個定義雖然在科學目的上無關(guān)緊要,但在法律術(shù)語上構(gòu)建了他們的合作關(guān)系。

如果 OpenAI 假設(shè)性地以「還沒有準備好」為借口扣留 GPT-5,除了控制成本和防止公眾反彈外,他們還能多做一件事:他們會回避宣布它是否達到了被歸類為 AGI 的門檻。雖然 1000 億美元的利潤是一個非凡的數(shù)字,但沒有什么能阻止雄心勃勃的客戶在此基礎(chǔ)上創(chuàng)造更多的利潤。另一方面,讓我們說清楚:如果 OpenAI 預測 GPT-5 每年能帶來 1000 億美元的經(jīng)常性收入,他們不會介意觸發(fā) AGI 條款并與微軟分道揚鑣。

對于 OpenAI 不發(fā)布 GPT-5 的大多數(shù)公眾反應(yīng)都基于這樣的假設(shè):他們不這樣做是因為它不夠好。即使這是真的,也沒有懷疑者停下來想一想 OpenAI 可能有比他們從外部獲得的更好的內(nèi)部用例。創(chuàng)建一個優(yōu)秀的模型與創(chuàng)建一個可以廉價地服務(wù)于 3 億人的優(yōu)秀模型之間存在巨大差異。如果你做不到,你就不做。但同樣,如果你不需要,你也不做。他們之前給我們訪問他們最好的模型是因為他們需要我們的數(shù)據(jù)。現(xiàn)在不那么需要了。他們也不追逐我們的錢。想要錢的是微軟,而不是他們。他們想要 AGI,然后是 ASI。他們想要一個遺產(chǎn)。

圖片

六、從山洞中傳遞智慧的老隱士

文章接近尾聲了。我相信我已經(jīng)列出了足夠的論據(jù)來建立一個堅實的案例:OpenAI 很可能在內(nèi)部擁有正在運行的 GPT-5,就像 Anthropic 擁有 Opus 3.5 一樣。OpenAI 永遠不會發(fā)布 GPT-5 也是有可能的。公眾現(xiàn)在將性能與 o1/o3 進行對比,而不僅僅是 GPT-4o 或 Claude Sonnet 3.6。隨著 OpenAI 探索測試時 scaling law,GPT-5 需要跨越的門檻不斷提高。他們?nèi)绾文馨l(fā)布一個真正超越 o1、o3 和即將到來的 o 系列模型的 GPT-5 呢,特別是考慮到他們生產(chǎn)這些模型的速度?此外,他們不再需要我們的錢或數(shù)據(jù)了。

訓練新的基礎(chǔ)模型 ——GPT-5、GPT-6 及以后的模型 —— 對 OpenAI 內(nèi)部來說永遠有意義,但不一定作為產(chǎn)品。這可能結(jié)束了。現(xiàn)在對他們來說唯一重要的目標是繼續(xù)為下一代模型生成更好的數(shù)據(jù)。從現(xiàn)在開始,基礎(chǔ)模型可能在后臺運行,讓其他模型能夠完成它們自己無法完成的壯舉——就像一個老隱士從秘密山洞中傳遞智慧,只是這個山洞是一個巨大的數(shù)據(jù)中心。而無論我們能否見到他,我們都將經(jīng)歷他的智慧帶來的后果。

圖片

即使 GPT-5 最終發(fā)布,這個事實突然顯得幾乎無關(guān)緊要。如果 OpenAI 和 Anthropic 確實啟動了遞歸自我改進行動(盡管仍然有人類參與其中),那么他們公開給我們什么并不重要。他們將越走越遠 —— 就像宇宙膨脹得如此之快,以至于遠處星系的光再也無法到達我們這里。

也許這就是 OpenAI 如何在短短三個月內(nèi)從 o1 跳到 o3 的原因,以及他們將如何跳到 o4 和 o5。這可能也是為什么他們最近在社交媒體上如此興奮。因為他們已經(jīng)實施了一種新的改進后的運作模式。

你真的認為接近 AGI 意味著你能隨時使用越來越強大的 AI 嗎?他們會發(fā)布每一個進展讓我們使用?當然,你不會相信這個。當他們說他們的模型會讓他們遠遠領(lǐng)先于任何人以至于無法追趕時,他們是認真的。每一代新模型都是逃逸速度的引擎。從平流層開始,他們已經(jīng)在向我們揮手告別。

他們是否會回來還有待觀察。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-02-16 13:48:56

模型論文

2024-01-09 12:53:16

模型訓練

2023-11-09 12:41:04

AI模型

2023-04-13 13:38:59

2024-08-08 14:00:00

2023-09-19 12:45:36

2024-01-22 13:57:00

模型訓練

2024-04-30 08:42:17

2023-06-16 13:02:22

GPT-5GPT-4AI

2024-01-18 12:30:03

2024-04-01 00:50:00

吳恩達智能體

2019-10-08 15:13:04

5G手機蘋果5G

2024-07-19 09:26:12

2025-02-13 10:52:56

2023-11-14 13:44:23

OpenAIGPT-5

2024-01-30 20:08:07

谷歌GPT-4Bard

2023-08-23 13:27:00

SQLCoder開源開發(fā)

2021-10-05 15:58:03

區(qū)塊鏈保險技術(shù)

2024-04-09 09:38:16

OpenAI模型

2023-09-03 12:56:43

點贊
收藏

51CTO技術(shù)棧公眾號