OpenAI發(fā)布推理模型o3及其精簡(jiǎn)版o3-mini
12月23日消息,據(jù)外媒報(bào)道,在為期12天的發(fā)布會(huì)上,OpenAI宣布了其新一代推理模型o3和精簡(jiǎn)版o3-mini,專門(mén)設(shè)計(jì)用于在回答問(wèn)題之前進(jìn)行更深入的思考,以提高準(zhǔn)確性。
據(jù)介紹,o3模型在ARC-AGI基準(zhǔn)上取得了優(yōu)異的表現(xiàn),成為第一個(gè)超越這一基準(zhǔn)的AI模型,展示了接近人類水平的問(wèn)題解決能力。o3系列在ARC-AGI基準(zhǔn)上的最低性能可以達(dá)到75.7%,加上額外的計(jì)算資源,性能可以提高到87.5%。
o3-mini模型專注于提高推理速度和降低成本,同時(shí)保持模型性能,使其特別適合編程任務(wù)。OpenAI計(jì)劃在一月底推出o3-mini,隨后不久將推出完整的o3型號(hào)。雖然o3系列機(jī)型不會(huì)直接公開(kāi)發(fā)布,而且會(huì)先進(jìn)行安全測(cè)試,但OpenAI已經(jīng)開(kāi)始允許安全研究人員注冊(cè)o3和o3-mini的預(yù)覽訪問(wèn)權(quán)限。
在編程和數(shù)學(xué)問(wèn)題解決方面,o3模型顯示出了顯著的能力。在SWE-bench驗(yàn)證基準(zhǔn)上,o3模型的準(zhǔn)確率約為71.7%,比o1模型高出20%以上。在衡量編程能力的Codeforces?Elo評(píng)分中,o3取得了2727的Elo評(píng)分,而o1評(píng)分僅為1891。此外,o3在競(jìng)技數(shù)學(xué)上的準(zhǔn)確率達(dá)到了96.7%,在GPQA?Diamond上的準(zhǔn)確率達(dá)到了87.7%,比o1提高了近10%。
OpenAI在發(fā)布會(huì)上還介紹了一種新的安全評(píng)估方法——審議式對(duì)齊(deliberative?alignment)。這種方法通過(guò)直接教授模型安全規(guī)范,訓(xùn)練模型在回答前明確回憶規(guī)范并準(zhǔn)確地執(zhí)行推理,從而實(shí)現(xiàn)對(duì)OpenAI安全政策的高度精確遵守。
目前,OpenAI正在推進(jìn)外部安全測(cè)試,并在其網(wǎng)站上開(kāi)放了早期訪問(wèn)應(yīng)用程序。申請(qǐng)人必須在網(wǎng)上填寫(xiě)表格并提供相關(guān)信息。選定的研究人員將被授予訪問(wèn)o3和o3-mini的權(quán)限,以探索它們的能力并為安全評(píng)估做出貢獻(xiàn)。