自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI員工瘋狂暗示,內(nèi)部已成功開發(fā)ASI?被曝訓(xùn)出GPT-5但雪藏

人工智能 新聞
OpenAI,有大事發(fā)生!最近各種爆料頻出,比如OpenAI已經(jīng)跨過「遞歸自我改進(jìn)」臨界點(diǎn),o4、o5已經(jīng)能自動(dòng)化AI研發(fā),甚至OpenAI已經(jīng)研發(fā)出GPT-5?OpenAI員工如潮水般爆料,瘋狂暗示內(nèi)部已開發(fā)出ASI。

種種跡象表明,最近OpenAI似乎發(fā)生了什么大事。

AI研究員Gwern Branwen發(fā)布了一篇關(guān)于OpenAI o3、o4、o5的文章。

根據(jù)他的說法,OpenAI已經(jīng)跨越了臨界點(diǎn),達(dá)到了「遞歸自我改進(jìn)」的門檻——o4或o5能自動(dòng)化AI研發(fā),完成剩下的工作!

圖片

文章要點(diǎn)如下——

- OpenAI可能選擇將其「o1-pro」模型保密,利用其計(jì)算資源來訓(xùn)練o3這類更高級(jí)的模型,類似于Anthorpic的策略

- OpenAI可能相信他們已經(jīng)在AI發(fā)展方面取得了突破,正在走向ASI之路

- 目標(biāo)是開發(fā)一種運(yùn)行效率高的超人AI,類似于AlphaGo/Zero所實(shí)現(xiàn)的目標(biāo)

- 推理時(shí)搜索最初可以提高性能,但最終會(huì)達(dá)到極限

甚至還出現(xiàn)了這樣一種傳言:OpenAI和Anthropic已經(jīng)訓(xùn)練出了GPT-5級(jí)別的模型,但都選擇了「雪藏」。

原因在于,模型雖能力強(qiáng),但運(yùn)營成本太高,用GPT-5蒸餾出GPT-4o、o1、o3這類模型,才更具性價(jià)比。

圖片

圖片

甚至,OpenAI安全研究員Stephen McAleer最近兩周的推文,看起來簡直跟短篇科幻小說一樣——

我有點(diǎn)懷念過去做AI研究的時(shí)候,那時(shí)我們還不知道如何創(chuàng)造超級(jí)智能。

在前沿實(shí)驗(yàn)室,許多研究人員都非常認(rèn)真地對待AI短時(shí)間的影響,而實(shí)驗(yàn)室之外幾乎沒有人充分討論其安全影響。

而現(xiàn)在控制超級(jí)智能已經(jīng)是迫在眉睫的研究事項(xiàng)了。

我們該如何控制詭計(jì)多端的超級(jí)智能?即使擁有完美的監(jiān)視器,難道它不會(huì)說服我們將其從沙箱中釋放出來嗎?

圖片

總之,越來越多OpenAI員工,都開始暗示他們已經(jīng)在內(nèi)部開發(fā)了ASI。

這是真的嗎?還是CEO奧特曼「謎語人」的風(fēng)格被底下員工學(xué)會(huì)了?

圖片

很多人覺得,這是OpenAI慣常的一種炒作手段。

圖片

圖片

但讓人有點(diǎn)害怕的是,有些一兩年前離開的人,其實(shí)表達(dá)過擔(dān)憂。

莫非,我們真的已處于ASI的邊緣?

圖片

圖片

超級(jí)智能(superintelligence)的「潘多拉魔盒」,真的被打開了?

OpenAI:「遙遙領(lǐng)先」

OpenAI的o1和o3模型,開啟了新的擴(kuò)展范式:在運(yùn)行時(shí)對模型推理投入更多計(jì)算資源,可以穩(wěn)定地提高模型性能。

如下面所示,o1的AIME準(zhǔn)確率,隨著測試時(shí)計(jì)算資源的對數(shù)增加而呈恒定增長。

圖片

OpenAI的o3模型延續(xù)了這一趨勢,創(chuàng)造了破紀(jì)錄的表現(xiàn),具體成績?nèi)缦拢?/span>

  • 在Codeforces上得分2727,使其成為全球第175名最優(yōu)秀的競技編程者;
  • 在FrontierMath上得分25%,該平臺(tái)的「每個(gè)問題都需要數(shù)學(xué)家?guī)讉€(gè)小時(shí)的工作」;
  • 在GPQA上得分88%,其中70%的分?jǐn)?shù)代表博士級(jí)別的科學(xué)知識(shí);
  • 在ARC-AGI上得分88%,而在困難的視覺推理問題上,平均Mechanical Turk人工任務(wù)工人的得分為75%。

根據(jù)OpenAI的說法,o系列模型的性能提升主要來自于增加思維鏈(Chain-of-Thought,CoT)的長度(以及其他技術(shù),如思維樹),并通過強(qiáng)化學(xué)習(xí)改進(jìn)思維鏈(CoT)過程。

目前,運(yùn)行o3在最大性能下非常昂貴,單個(gè)ARC-AGI任務(wù)的成本約為300美元,但推理成本正以每年約10倍的速度下降!

Epoch AI的一項(xiàng)最新分析指出,前沿實(shí)驗(yàn)室在模型訓(xùn)練和推理上的花費(fèi)可能相似。

因此,除非接近推理擴(kuò)展的硬性限制,否則前沿實(shí)驗(yàn)室將繼續(xù)大量投入資源優(yōu)化模型推理,并且成本將繼續(xù)下降。

就一般情況而言,推理擴(kuò)展范式預(yù)計(jì)可能會(huì)持續(xù)下去,并且將是AGI安全性的一個(gè)關(guān)鍵考慮因素。

AI安全性影響

那么推理擴(kuò)展范式對AI安全性的影響是什么呢?簡而言之,AI安全研究人員Ryan Kidd博士認(rèn)為:

  • AGI時(shí)間表大體不變,但可能會(huì)提前一年。
  • 對于前沿模型的部署,可能會(huì)減少其過度部署的影響,因?yàn)樗鼈兊牟渴鸪杀緦⒈阮A(yù)期高出約1000倍,這將減少來自高速或集體超級(jí)智能的近期風(fēng)險(xiǎn)。
  • 思維鏈(CoT)的監(jiān)督可能更有用,前提是禁止非語言的CoT,這對AI安全性有利。
  • 更小的、運(yùn)行成本更高的模型更容易被盜用,但除非非常富有,否則很難進(jìn)行操作,這減少了單邊主義詛咒的風(fēng)險(xiǎn)。
  • 擴(kuò)展可解釋性更容易還是更難;尚不確定。
  • 模型可能會(huì)更多地接受強(qiáng)化學(xué)習(xí)(RL),但這將主要是「基于過程」的,因此可能更安全,前提是禁止非語言的CoT。
  • 出口管制可能需要調(diào)整,以應(yīng)對專用推理硬件。

AGI時(shí)間表

o1和o3的發(fā)布,對AGI時(shí)間表的預(yù)測的影響并不大。

Metaculus的「強(qiáng)AGI」預(yù)測似乎因?yàn)閛3的發(fā)布而提前了一年,預(yù)計(jì)在2031年中期實(shí)現(xiàn);然而,自2023年3月以來,該預(yù)測一直在2031到2033年之間波動(dòng)。

Manifold Market的「AGI何時(shí)到來?」也提前了一年,從2030年調(diào)整為2029年,但最近這一預(yù)測也在波動(dòng)。

很有可能,這些預(yù)測平臺(tái)已經(jīng)在某種程度上考慮了推理計(jì)算擴(kuò)展的影響,因?yàn)樗季S鏈并不是一項(xiàng)新技術(shù),即使通過RL增強(qiáng)。

總體來說,Ryan Kidd認(rèn)為他也沒有比這些預(yù)測平臺(tái)當(dāng)前預(yù)測更好的見解。

部署問題

在《AI Could Defeat All Of Us Combined》中,Holden Karnofsky描述了一種模棱兩可的風(fēng)險(xiǎn)威脅模型。

在此模型中,一群人類水平的AI,憑借更快的認(rèn)知速度和更好的協(xié)調(diào)能力超過了人類,而非依賴于定性上的超級(jí)智能能力。

這個(gè)情景的前提是,「一旦第一個(gè)人類水平的AI系統(tǒng)被創(chuàng)造出來,創(chuàng)造它的人,可以利用創(chuàng)造它所需要的相同計(jì)算能力,運(yùn)行數(shù)億個(gè)副本,每個(gè)副本大約運(yùn)行一年?!?/span>

如果第一個(gè)AGI的運(yùn)行成本和o3-high的成本一樣(約3000美元/任務(wù)),總成本至少要3000億美元,那么這個(gè)威脅模型似乎就不那么可信了。

因此,Ryan Kidd博士對「部署問題」問題的擔(dān)憂較小,即一旦經(jīng)過昂貴的訓(xùn)練,短期模型就可以廉價(jià)地部署,從而產(chǎn)生巨大影響。

這在一定程度上減輕了他對「集體」或「高速」超級(jí)智能的擔(dān)憂,同時(shí)略微提升了對「定性」超級(jí)智能的關(guān)注,至少對于第一代AGI系統(tǒng)而言。

監(jiān)督思維鏈

如果模型的更多認(rèn)知,是以人類可解釋的思維鏈(CoT)形式嵌入,而非內(nèi)部激活,這似乎是通過監(jiān)督來促進(jìn)AI安全性的好消息!

盡管CoT對模型推理的描述并不總是真實(shí)或準(zhǔn)確,但這一點(diǎn)可能得到改進(jìn)。

Ryan Kidd也對LLM輔助的紅隊(duì)成員持樂觀態(tài)度,他們能夠防止隱秘的陰謀,或者至少限制可能秘密實(shí)施的計(jì)劃的復(fù)雜度,前提是有強(qiáng)有力的AI控制措施

從這個(gè)角度來看,推理計(jì)算擴(kuò)展范式似乎非常有利于AI安全,前提是有足夠的CoT監(jiān)督。

不幸的是,像Meta的Coconut(「連續(xù)思維鏈」)這樣的技術(shù)可能很快就會(huì)應(yīng)用于前沿模型,連續(xù)推理可以不使用語言作為中介狀態(tài)。

盡管這些技術(shù)可能帶來性能上的優(yōu)勢,但它們可能會(huì)在AI安全性上帶來巨大的隱患。

正如Marius Hobbhahn所說:「如果為了微小的性能提升,而犧牲了可讀的CoT,那簡直是在自毀前程?!?/span>

然而,考慮到用戶看不到o1的CoT,尚不確定是否能知道非語言CoT被部署的可能性,除非通過對抗性攻擊揭示這一點(diǎn)。

AGI來了

美國AI作家和研究員Gwern Branwen,則認(rèn)為Ryan Kidd遺漏了一個(gè)重要方面:像o1這樣的模型的主要目的之一不是將其部署,而是生成下一個(gè)模型的訓(xùn)練數(shù)據(jù)。

o1解決的每一個(gè)問題現(xiàn)在都是o3的一個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)(例如,任何一個(gè)o1會(huì)話最終找到正確答案的例子,都來訓(xùn)練更精細(xì)的直覺)。

這意味著這里的擴(kuò)展范式,可能最終看起來很像當(dāng)前的訓(xùn)練時(shí)范式:大量的大型數(shù)據(jù)中心,在努力訓(xùn)練一個(gè)擁有最高智能的最終前沿模型,并以低搜索的方式使用,并且會(huì)被轉(zhuǎn)化為更小更便宜的模型,用于那些低搜索或無搜索的用例。

對于這些大型數(shù)據(jù)中心來說,工作負(fù)載可能幾乎完全與搜索相關(guān)(因?yàn)榕c實(shí)際的微調(diào)相比,推出模型的成本低廉且簡單),但這對其他人來說并不重要;就像之前一樣,所看到的基本是,使用高端GPU和大量電力,等待3到6個(gè)月,最終一個(gè)更智能的AI出現(xiàn)。

OpenAI部署了o1-pro,而不是將其保持為私有,并將計(jì)算資源投資于更多的o3訓(xùn)練等自舉過程。

Gwern Branwen對此有點(diǎn)驚訝。

顯然,類似的事情也發(fā)生在Anthropic和Claude-3.6-opus上——它并沒有「失敗」,他們只是選擇將其保持為私有,并將其蒸餾成一個(gè)小而便宜、但又奇怪地聰明的Claude-3.6-sonnet。)

OpenAI突破「臨界點(diǎn)」

OpenAI的成員突然在Twitter上變得有些奇怪、甚至有些欣喜若狂,原因可能就是看到從原始4o模型到o3(以及現(xiàn)在的狀態(tài))的改進(jìn)

這就像觀看AlphaGo在圍棋中等國際排名:它一直在上升……上升……再上升……

可能他們覺得自己「突破了」,終于跨過了臨界點(diǎn):從單純的前沿AI工作,幾乎每個(gè)人幾年后都會(huì)復(fù)制的那種,跨越到起飛階段——破解了智能的關(guān)鍵,以至o4或o5將能夠自動(dòng)化AI研發(fā),并完成剩下的部分。

2024年11月,Altman表示:

我可以看到一條路徑,我們正在做的工作會(huì)繼續(xù)加速增長,過去三年取得的進(jìn)展將繼續(xù)在未來三年、六年、九年或更長時(shí)間里繼續(xù)下去。

不久卻又改口:

我們現(xiàn)在非常確信地知道如何構(gòu)建傳統(tǒng)意義上的AGI……我們開始將目標(biāo)超越這一點(diǎn),邁向真正意義上的超級(jí)智能。我們很喜歡我們目前的產(chǎn)品,但我們是為了美好的未來。通過超級(jí)智能,我們可以做任何事情。

而其他AI實(shí)驗(yàn)室卻只能望洋興嘆:當(dāng)超級(jí)智能研究能夠自給自足時(shí),根本無法獲得所需的大型計(jì)算設(shè)備來競爭。

最終OpenAI可能吃下整個(gè)AI市場。

畢竟AlphaGo/Zero模型不僅遠(yuǎn)超人類,而且運(yùn)行成本也非常低。僅僅搜索幾步就能達(dá)到超人類的實(shí)力;即使是僅僅前向傳遞,已接近職業(yè)人類的水平!

如果看一下下文中的相關(guān)擴(kuò)展曲線,會(huì)發(fā)現(xiàn)原因其實(shí)顯而易見。

圖片

論文鏈接:https://arxiv.org/pdf/2104.03113

繼續(xù)蒸餾

推理時(shí)的搜索就像是一種刺激劑,能立即提升分?jǐn)?shù),但很快就會(huì)達(dá)到極限。

很快,你必須使用更智能的模型來改善搜索本身,而不是做更多的搜索。

如果單純的搜索能如此有效,那國際象棋在1960年代就能解決了.

而實(shí)際上,到1997年5月,計(jì)算機(jī)才擊敗了國際象棋世界冠軍,但超過國際象棋大師的搜索速度并不難。

如果你想要寫著「Hello World」的文本,一群在打字機(jī)上的猴子可能就足夠了;但如果想要在宇宙毀滅之前,得到《哈姆雷特》的全文,你最好現(xiàn)在就開始去克隆莎士比亞。

幸運(yùn)的是,如果你手頭有需要的訓(xùn)練數(shù)據(jù)和模型,那可以用來創(chuàng)建一個(gè)更聰明的模型:聰明到可以寫出媲美甚至超越莎士比亞的作品。

2024年12月20日,奧特曼強(qiáng)調(diào):

在今天的噪聲中,似乎有些消息被忽略了:

在編程任務(wù)中,o3-mini將超過o1的表現(xiàn),而且成本還要少很多!

我預(yù)計(jì)這一趨勢將持續(xù)下去,但也預(yù)見到為獲得邊際的更多性能而付出指數(shù)級(jí)增加的資金,這將變得非常奇怪。

因此,你可以花錢來改善模型在某些輸出上的表現(xiàn)……但「你」可能是「AI 實(shí)驗(yàn)室」,你只是花錢去改善模型本身,而不僅僅是為了某個(gè)一般問題的臨時(shí)輸出。

這意味著外部人員可能永遠(yuǎn)看不到中間模型(就像圍棋玩家無法看到AlphaZero訓(xùn)練過程中第三步的隨機(jī)檢查點(diǎn))。

而且,如果「部署成本是現(xiàn)在的1000倍」成立,這也是不部署的一個(gè)理由。

為什么要浪費(fèi)這些計(jì)算資源來服務(wù)外部客戶,而不繼續(xù)訓(xùn)練,將其蒸餾回去,最終部署一個(gè)成本為100倍、然后10倍、1倍,甚至低于1倍的更優(yōu)模型呢?

因此,一旦考慮到所有的二階效應(yīng)和新工作流,搜索/測試時(shí)間范式可能會(huì)看起來出奇地熟悉。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-04-09 09:38:16

OpenAI模型

2024-01-18 12:30:03

2024-11-11 13:52:31

2024-08-08 14:00:00

2023-04-13 13:38:59

2024-12-24 14:30:00

模型AI訓(xùn)練

2024-12-23 09:22:00

AI模型訓(xùn)練

2023-06-08 07:58:29

2023-11-16 15:57:00

數(shù)據(jù)訓(xùn)練

2023-08-02 13:52:59

GPT-5模型

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2023-11-14 14:26:29

OpenAIGPT-5

2023-11-07 16:10:18

OpenAIGPTAI

2023-09-19 12:45:36

2025-02-13 08:56:12

2023-08-11 10:44:20

GPT-5

2023-08-10 15:22:48

人工智能OpenAI

2023-08-02 00:19:46

2024-01-22 13:57:00

模型訓(xùn)練

2023-08-08 12:51:55

AI技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)