自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

驚掉下巴!o3像是一個彌天大謊!基準構(gòu)建者Epoch AI發(fā)長文認錯曝猛料:OpenAI竟獨家訪問數(shù)據(jù)集,問題和答案 原創(chuàng)

發(fā)布于 2025-1-20 13:37
瀏覽
0收藏

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

驚天大瓜來了!

去年年底OpenAI 推出o3推理,在數(shù)學(xué)、編碼、通用AGI方面都取得了令人的難以置信的類人甚至超人的進展。

但就在昨天,大洋彼岸的一眾人工智能專家開始對“o3”的這些數(shù)據(jù)表示嚴重的懷疑,甚至將之比作“Theranos”時刻(一家建立在巨大謊言之上的公司,項目參與人員被迫保密,外界卻被蒙在鼓里)。

因為事實證明,o3的發(fā)布者 OpenAI 恰恰資助了 FrontierMath ,同時可以訪問大部分數(shù)據(jù)集。

1.愈演愈烈的o3基準爭議

有關(guān) OpenAI 的 o3 基準測試爭議已經(jīng)在海外媒體持續(xù)發(fā)酵。

去年11月,Epoch AI 發(fā)布了專門用于評估大語言模型數(shù)學(xué)能力的精準測試集FrontierMath ,此前業(yè)界的觀點對于 o1 的測試表現(xiàn)堪稱“很爛但很擅長找借口”,不過很快 o3 的亮相后,這種刻板印象就來了180度大反轉(zhuǎn) ——

12 月,當(dāng) OpenAI 宣布其新的 o3 系列模型時,該公司聲稱 o3 在 EpochAI Frontier Math 基準測試中實現(xiàn)了令人印象深刻的 25% 準確率。與此前型號僅 2% 的高分相比,這是一個巨大的飛躍。該基準測試分配 LLM 來解決前所未有的難度的數(shù)學(xué)問題。

然而,這種“巨大的飛躍”,很有可能是一種“虛假繁榮”!

近日,海外開始瘋傳 Epoch AI 的副主任 Tamay Besiroglu 的長文,文中表示:他們受到合同限制,無法披露 OpenAI 參與其中,而六名特約數(shù)學(xué)家均透露,他們不知道 OpenAI 將擁有該基準的獨家訪問權(quán),如果他們知道的話,他們不確定是否還會在其中做出貢獻。

驚掉下巴!o3像是一個彌天大謊!基準構(gòu)建者Epoch AI發(fā)長文認錯曝猛料:OpenAI竟獨家訪問數(shù)據(jù)集,問題和答案-AI.x社區(qū)圖片

于是,包括加里·馬庫斯 (Gary Marcus) 在內(nèi)的一眾人工智能專家都開始質(zhì)疑 OpenAI 的說法的合法性,并將這種情況直接與 Theranos 相提并論。

驚掉下巴!o3像是一個彌天大謊!基準構(gòu)建者Epoch AI發(fā)長文認錯曝猛料:OpenAI竟獨家訪問數(shù)據(jù)集,問題和答案-AI.x社區(qū)圖片

主要的信息量,有這么幾個重點,大家可以先行消化——

(1)為基準測試創(chuàng)建問題和解決方案的數(shù)學(xué)家們并未被告知 OpenAI 資助了這項工作并有權(quán)訪問它們。

(2)我們不知道 OpenAI 是否在基準上進行過訓(xùn)練o3 ,而且不清楚他們的結(jié)果是否可信 

(3) 有些數(shù)學(xué)家不信任 OpenAI,出于生存風(fēng)險的擔(dān)憂,他們不愿意為通用人工智能能力做出貢獻,他們被誤導(dǎo)了:大多數(shù)人沒有懷疑一家前沿人工智能公司為其提供資金。

(4)Epoch AI 表示:“我們的合同明確禁止我們披露有關(guān)資金來源的信息,以及 OpenAI 可以訪問大部分但不是全部數(shù)據(jù)集的事實?!?nbsp;

(5)Epoch AI 與 OpenAI 達成了一項“口頭協(xié)議”——好像現(xiàn)在還有人相信 OpenAI 的話:“我們承認 OpenAI 確實可以訪問 FrontierMath 的大部分問題和解決方案,但 OpenAI 未見過的保留集除外,這使我們能夠獨立驗證模型功能。但是,我們有一個口頭協(xié)議,這些材料不會用于模型訓(xùn)練?!?/p>

2.構(gòu)建者 Epoch AI 副主任發(fā)長文認錯,曝猛料:OpenAI可以訪問大部分基準問題和答案 

Besiroglu 說:“我們犯了一個錯誤,沒有對 OpenAI 的參與更加透明”。他透露,在 o3 模型推出之前,該公司被限制披露合作伙伴關(guān)系。

“我們的合同明確禁止我們披露有關(guān)資金來源的信息,以及 OpenAI 可以訪問大部分但不是全部數(shù)據(jù)集的數(shù)據(jù)這一事實。我們承認這個錯誤,并致力于在未來做得更好,“他補充道。

Besiroglu 還承認,OpenAI 可以訪問大部分 FrontierMath 問題和解決方案。然而,“OpenAI 未見的維持集”有助于驗證模型的能力。

料很猛,這里將長圖中的內(nèi)容整理如下:

圖片1:

驚掉下巴!o3像是一個彌天大謊!基準構(gòu)建者Epoch AI發(fā)長文認錯曝猛料:OpenAI竟獨家訪問數(shù)據(jù)集,問題和答案-AI.x社區(qū)圖片

FrontierMath 由 OpenAI 資助。關(guān)于此事的溝通一直不夠透明,許多人,包括在這個數(shù)據(jù)集上工作的承包商,都沒有意識到這種聯(lián)系。在12月20日(OpenAI 宣布 o3 的那一天)之前,沒有公開溝通關(guān)于 OpenAI 資助這個基準測試的信息。之前的 Arxiv 版本 v1-v4 沒有承認 OpenAI 的支持。這種支持在12月20日公開。

因為提到 OpenAI 貢獻的 Arxiv 版本正好在 o3 公告之后發(fā)布,我猜 Epoch AI 可能與 OpenAI 達成了某種協(xié)議,直到那時才公開提及此事。為 FrontierMath 創(chuàng)建問題的數(shù)學(xué)家并沒有(積極地)被告知 OpenAI 的資助情況。

承包商被指示要對練習(xí)題及其解決方案保密,包括不使用 Overleaf 或 Colab 或通過電子郵件討論問題,并簽署保密協(xié)議,“以確保問題保持機密”并避免泄露。承包商也沒有在12月20日被告知 OpenAI 的資助情況。我相信有些論文的署名作者并不知道 OpenAI 的資助情況。我認為大多數(shù)人,包括大多數(shù)承包商的印象是,“這個基準測試的問題和答案將完全保密,并且只會由 Epoch 運行。除非公司從 API 日志中提取問題(這似乎不太可能),否則這不應(yīng)該是個問題?!爆F(xiàn)在 Epoch AI 或 OpenAI 并沒有公開表示 OpenAI 可以訪問練習(xí)題或答案或解決方案。我間接聽說 OpenAI 確實可以訪問練習(xí)題和答案,并且他們用它們進行驗證。我不知道 Epoch AI 和 OpenAI 之間是否有協(xié)議禁止他們使用這個數(shù)據(jù)集進行訓(xùn)練,并且我有一些證據(jù)反對這種協(xié)議的存在。在我看來,Epoch AI 應(yīng)該披露 OpenAI 的資助情況,承包商在選擇是否參與基準測試時,應(yīng)該有關(guān)于他們的工作可能被用于能力的透明信息。

圖片2:

驚掉下巴!o3像是一個彌天大謊!基準構(gòu)建者Epoch AI發(fā)長文認錯曝猛料:OpenAI竟獨家訪問數(shù)據(jù)集,問題和答案-AI.x社區(qū)圖片

來自 Epoch AI 的 Tamay 表示:

我們在 OpenAI 的參與方面沒有更加透明,這是一個錯誤。我們被限制在 o3 發(fā)布前后披露合作關(guān)系,事后看來,我們應(yīng)該更努力地爭取盡快向基準測試貢獻者透明化。我們的合同明確禁止我們披露資金來源以及 OpenAI 對大部分但不是全部數(shù)據(jù)集的訪問權(quán)限。我們承認這個錯誤,并承諾在未來做得更好。

對于未來的合作,我們將努力在可能的情況下提高透明度,確保貢獻者從一開始就更清楚地了解資金來源、數(shù)據(jù)訪問和使用目的。雖然我們確實向一些數(shù)學(xué)家傳達了我們獲得了實驗室資助,但我們沒有系統(tǒng)地這樣做,也沒有提到我們合作的實驗室。這種不一致的溝通是一個錯誤。我們應(yīng)該從一開始就更努力地爭取這種合作關(guān)系的透明度,特別是與創(chuàng)建問題的數(shù)學(xué)家。

僅在 o3 發(fā)布時獲得披露 OpenAI 參與的許可是不夠的。我們的數(shù)學(xué)家應(yīng)該知道誰可能訪問他們的工作。盡管我們在合同上受到限制,但我們本應(yīng)該將與貢獻者的透明度作為與 OpenAI 協(xié)議中不可談判的一部分。

關(guān)于訓(xùn)練使用:我們承認 OpenAI 確實可以訪問 FrontierMath 的大部分問題和解決方案,除了一個未被 OpenAI 看到的保留集,這使我們能夠獨立驗證模型能力。然而,我們有一個口頭協(xié)議,這些材料將不會被用于模型訓(xùn)練。

相關(guān) OpenAI 員工的公開溝通將 FrontierMath 描述為一個“嚴格保留的”評估集。雖然這種公開定位與我們的...

3.建立在謊言之上的項目

OpenAI 首席執(zhí)行官Sam 素有“營銷大師”的稱謂,但營銷和謊言還是有著本質(zhì)的區(qū)別。

有的網(wǎng)友更是將此次o3基準性能爭議擴大到了Sam治下OpenAI的“前科黑歷史”,稱:從欺騙自己的董事會到前雇員必須簽署不詆毀協(xié)議,OpenAI的確有誤導(dǎo)行為的歷史,這不奇怪。

驚掉下巴!o3像是一個彌天大謊!基準構(gòu)建者Epoch AI發(fā)長文認錯曝猛料:OpenAI竟獨家訪問數(shù)據(jù)集,問題和答案-AI.x社區(qū)圖片

很多人并不清楚 Theranos 這個案例。這里為大家簡單介紹下。

2014 年,被當(dāng)時硅谷101位CEO、投資人看好的血液檢測初創(chuàng)公司 Theranos (僅次于馬斯克的特斯拉)一路高歌猛進,推銷一項據(jù)稱具有革命性的技術(shù)。彼時現(xiàn)有技術(shù)需要為每項診斷測試提供一瓶血液,而 Theranos 卻聲稱只需一次采血,就能夠進行數(shù)百次測試(據(jù)說超過 240 次),從膽固醇水平到復(fù)雜的基因分析。自動化、快速且廉價,Theranos 似乎正在提供可以徹底改變醫(yī)學(xué)并挽救全世界生命的技術(shù)。

Theranos 的創(chuàng)始人兼首席執(zhí)行官伊麗莎白·霍姆斯 (Elizabeth Holmes) 用她的學(xué)費從斯坦福大學(xué)輟學(xué)創(chuàng)立了這家公司,當(dāng)時 Theranos 正處于巔峰時期,她只有 30 歲。從 Larry Ellison 和 Tim Draper 等人那里籌集了超過 $700m 的投資,該公司已成為硅谷的后起之秀,估值超過 $90 億,而 Holmes 的份額超過一半,被譽為女性史蒂夫喬布斯。

唯一的問題是什么?這項技術(shù)沒有奏效。

2015 年,兩次獲得普利策獎的《華爾街日報》記者約翰·卡雷魯 (John Carreyrou) 首次爆料了這個故事。在收到對 Theranos 技術(shù)性能的懷疑后,John 的興趣進一步被 Holmes 在斯坦福大學(xué)上了兩個學(xué)期的化學(xué)工程課程后據(jù)稱有能力發(fā)明開創(chuàng)性的醫(yī)療技術(shù)而進一步激發(fā)了他的興趣。

盡管受到恐嚇和法律訴訟的威脅,Theranos 的前員工 Erika Cheung 和 Tyler Schultz(他們的祖父 George Schultz 是 Theranos 董事會成員)開始與 John 分享他們對公司、技術(shù)和實踐的經(jīng)驗。他們向董事會成員揭露了謊言,揭露了恐嚇和保密的文化,一再未能通過質(zhì)量保證的技術(shù),以及至關(guān)重要的是,發(fā)送給真實患者的結(jié)果從根本上是錯誤的,據(jù)此做出了改變生活的醫(yī)療決定。

看起來,這家公司只不過是建立在大膽的謊言之上的。這場“騙局”最終在2015年的揭露之下,走下神壇:這家公司及其CEO都長期陷于美國政府機構(gòu)源源不斷的調(diào)查和各類訴訟中,一地雞毛。

驚掉下巴!o3像是一個彌天大謊!基準構(gòu)建者Epoch AI發(fā)長文認錯曝猛料:OpenAI竟獨家訪問數(shù)據(jù)集,問題和答案-AI.x社區(qū)圖片

不過,有網(wǎng)友認為將 OpenAI 比作 Theranos,有點太過了,畢竟Theranos是未能交付(成果)。但好歹 OpenAI 有一個產(chǎn)品(即使它不是通用人工智能(AGI),它的護城河可能很淺)。

但不誠實的印象已經(jīng)在人們心中養(yǎng)成——

“我認為 Sam Altman 不會被起訴,因為在軟件領(lǐng)域沒有相當(dāng)于食品和藥物管理局(FDA)和醫(yī)療保險與醫(yī)療補助服務(wù)中心(CMS)的機構(gòu),但 Sam Altman和Elizabeth Holmes 都是騙子和欺詐藝術(shù)家。這一點在我心中毫無疑問?!?/p>

4.重申:大模型真的會數(shù)學(xué)推理嗎?

長期以來,關(guān)于基準測試的有效性一直存在一些爭論。在Apple發(fā)表的一篇研究論文中,盡管 LLM 在基準測試中表現(xiàn)出色,但它們并不真正擅長數(shù)學(xué)推理,它們的輸出來自模式識別和從訓(xùn)練數(shù)據(jù)中復(fù)制步驟。

甚至 OpenAI 也提到他們不想在 MATH 和 GSM8K 上對 o1 進行基準測試,因為評估方法相當(dāng)過時,而且大多數(shù) LLM 很容易輸出高分。

OpenAI 在一篇博文中說:“最近的前沿模型在 MATH2 和 GSM8K 上表現(xiàn)得非常好,以至于這些基準測試在區(qū)分模型方面不再有效。

鑒于這些擔(dān)憂,F(xiàn)rontierMath 分配了 LLM 來解決前所未有的難度的數(shù)學(xué)問題。根據(jù) Epoch AI 的說法,這些問題需要人類科學(xué)家和數(shù)學(xué)家花費數(shù)小時的工作。

Epoch AI 發(fā)布 FrontierMath,本意上是為了做一個更為靠譜的評估大型語言模型數(shù)學(xué)能力的新基準測試。盡管基準測試的問題比以往任何時候都更難解決,但無疑能揭露出LLM 的真實的數(shù)學(xué)水準。

然而,遺憾的是,OpenAI參與其中的不透明性再次讓這次新基準的數(shù)學(xué)家們大跌眼鏡:獨家訪問這項測試集+各種保密,還有什么測試意義呢?

本文轉(zhuǎn)載自??51CTO技術(shù)棧??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦