自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="xdwav"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

o3來了！編程躋身人類全球前200，破解陶哲軒說難的數(shù)學測試，北大校友任泓宇現(xiàn)身直播間

2024-12-23 07:10:00

這次直播還公布了o3-mini，支持低中高三種思考程度設置。主要展示了代碼能力，低設置下o3-mini和o1-mini差不多，中高設置已經超過了o1正式版。

OpenAI公布下一代模型，o1之后直接o3！

“雙12”直播活動最后一天，終于來了個大的，奧特曼本人也再次現(xiàn)身直播間。

o3相比o1最突出的成績，一是頂尖程序員競賽CodeForces分數(shù)超過2700，人類超過這個分數(shù)的目前只有不到200個。

二是在為AGI準備的測試ARC-AGI上分數(shù)從32%躍升到了75.7%、87.5%。

為什么有兩個成績呢？

因為o3支持低思考程度和高思考程度兩種設置，高思考程度花費的算力（橫軸）也直接拉滿。

ARC-AGI是Keras之父Fran?ois Chollet發(fā)起的測試基準，典型題目為圖形邏輯推理。

另一項測試是號稱最難數(shù)學測試的EpochAI Frontier Math，包含最新未公開前沿題目。

此前陶哲軒對這項測試的第一印象是“可能難住AI好幾年”。

o3在測試中比之前SOTA從2分提升到25分。

人類專業(yè)數(shù)學家解決其中一道題目也要花費數(shù)小時到數(shù)天，現(xiàn)在o3只需要思考幾分鐘了。

這次直播還公布了o3-mini，支持低中高三種思考程度設置。

主要展示了代碼能力，低設置下o3-mini和o1-mini差不多，中高設置已經超過了o1正式版。

參與研究的北大校友任泓宇，現(xiàn)場展示了o3-mini的編程能力。

他使用了特殊版本的ChatGPT，稱為ChatGPT α。

任務如下：

寫一個Python腳本，在本地為一個帶有大文本框的HTML文件啟動服務器。當我在該框中輸入文本并按下提交時，它應該將該代碼請求發(fā)送到OpenAl o3-mini API ，使用medium reasoning_effort ，獲取生成的代碼，將其保存到桌面上的臨時文件中，然后在新的Python終端中執(zhí)行該文件。還有一些細節(jié)：
可以在~/api_key中找到我的API密鑰
請在向API的請求中添加一些額外的提示，指定它只應返回沒有任何格式或Markdown的原始代碼
你將在Mac筆記本電腦環(huán)境運行

o3-mini的思考過程用了38秒，然后代碼秒出，一次運行成功。

這個演示可能不太直觀，但是看得沒去現(xiàn)場的另一位OpenAI研究員Aidan Clark直出汗。

總結一下，就是o3-mini用38秒給自己寫了一個UI，通過API調用“自己”。

后續(xù)演示中，任泓宇要求o3-mini在這個UI中編寫并執(zhí)行一個腳本，來評估“它自己”在低思考程度下、在GPQA數(shù)據(jù)集上的表現(xiàn)。

腳本正確運行了評估，返回結果數(shù)值61.62%，與正式評估結果基本一致。

是不是有一點科幻的感覺了。

可惜吶～ o3和o3-mini目前都是早期預覽狀態(tài)，只給看不給玩。

安全研究者可以在OpenAI官網申請早期訪問權限。

北大校友、GPT-4o核心開發(fā)者現(xiàn)身直播間

這場直播中另外值得關注的，就是新出場的北大校友任泓宇了（最左邊）。

他去年剛加入OpenAI擔任研究科學家，主要負責語言模型訓練，是GPT-4o的核心開發(fā)者、GPT-Next項目組成員。

直播中最新透露，九月份的o1-mini他也有參與，證實了此前傳聞中o1-mini主要由三位華人負責（另兩位是Kevin Lu和Jiahui Yu）。

任泓宇博士畢業(yè)于斯坦福大學。加入OpenAI之前，他在Apple、Google、NVIDIA 和Microsoft有大量研究實習經歷。

One More Thing

笑死，最后一天頂著圣誕帽的“青蛙”直接被擺到了最前面：

其實，之前每一場它們都在，不過是被擺在了后面的架子上，而且數(shù)量隨直播天數(shù)增加。

昨天是直播第11天，圣誕帽“青蛙”是醬嬸兒的：

你數(shù)出來有多少圣誕“青蛙”了嗎？

責任編輯：姜華來源：量子位

o3-mini ARC-AGI 人工智能

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<div id="5bob4"></div>

<thead id="5bob4"><rt id="5bob4"></rt></thead>

<sub id="5bob4"></sub>