自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

280頁PDF,全方位評估OpenAI o1,Leetcode刷題準確率竟這么高

人工智能 新聞
計算機科學、數(shù)學、自然科學、醫(yī)學、語言學、社會科學……OpenAI o1擅長什么?還有哪些不足?

OpenAI 的 o1-preview 模型已經(jīng)發(fā)布兩周了,網(wǎng)上也有了很多零星的測評。不過,大部分測評都側(cè)重于某一個方面,對于 o1-preview 的系統(tǒng)評估目前還比較匱乏。

在一篇長達 280 頁的論文中,來自加拿大阿爾伯塔大學等機構(gòu)的研究者報告了他們對 o1-preview 的系統(tǒng)評估結(jié)果,非常具有參考價值。


  • 論文標題:Evaluation of OpenAI o1: Opportunities and Challenges of AGI
  • 論文鏈接:https://arxiv.org/pdf/2409.18486

具體來說,這項綜合研究評估了 o1-preview 在各種復(fù)雜推理任務(wù)中的性能,涵蓋多個領(lǐng)域,包括計算機科學、數(shù)學、自然科學、醫(yī)學、語言學和社會科學。通過嚴格的測試,o1-preview 展示了非凡的能力。

主要結(jié)論如下:

  • 編程挑戰(zhàn):在解決復(fù)雜的競賽性編程問題上,o1-preview 的成功率達到了 83.3%,超過了眾多的人類專家。
  • 放射學報告生成:在生成連貫且準確的放射學報告方面,o1-preview 的表現(xiàn)優(yōu)于其他評估過的模型。
  • 高中數(shù)學推理:在高中水平的數(shù)學推理任務(wù)中,o1-preview 達到了 100% 的準確性,并提供了詳細的解題步驟。
  • 自然語言推理:無論是在通用領(lǐng)域還是醫(yī)療等專業(yè)領(lǐng)域,o1-preview 都展現(xiàn)出了高級的自然語言推理能力。
  • 芯片設(shè)計任務(wù):在 EDA 腳本生成和錯誤分析等芯片設(shè)計任務(wù)中,o1-preview 的表現(xiàn)超過了專門的模型。
  • 人類學和地質(zhì)學:o1-preview 在人類學和地質(zhì)學這兩個專業(yè)領(lǐng)域展示了深刻的理解和推理能力。
  • 量化投資:o1-preview 具有全面的金融知識和統(tǒng)計建模技能,在量化投資領(lǐng)域表現(xiàn)良好。
  • 社交媒體分析:在包括情感分析和情緒識別在內(nèi)的社交媒體分析任務(wù)中,o1-preview 也有有效的表現(xiàn)。

盡管 o1-preview 在一些簡單的問題上偶爾會出現(xiàn)錯誤,并且在某些高度專業(yè)的概念面前遇到了挑戰(zhàn),但總體結(jié)果表明,該模型在向通用人工智能(AGI)邁進的過程中取得了顯著進展。

評估不僅突顯了 o1-preview 目前的優(yōu)勢和局限性,還指出了未來發(fā)展的關(guān)鍵領(lǐng)域,如多模態(tài)集成、特定領(lǐng)域的驗證和實際應(yīng)用中的倫理考慮。這些發(fā)現(xiàn)為大型語言模型在眾多領(lǐng)域的潛力提供了寶貴的見解,并為 AI 研究和應(yīng)用的進一步發(fā)展鋪平了道路。

論文目錄如下:   

以下是論文中的部分結(jié)果展示。

代碼生成

為了評估 o1-preview 的編碼能力,作者在 Leetcode 競賽環(huán)境中對其性能進行了擴展測試。

如表 2 所示,o1-preview 成功通過了 12 個問題中的 10 個,通過率高達 83.3%。該模型在 Weekly Contest 413 中只答錯了一個問題,在 Biweekly Contest 138 中又答錯了一個問題。值得注意的是,這兩個問題都被歸類為「hard」級別。雖然花了幾分鐘才能生成解決方案,但 o1-preview 無法在三次提交嘗試中通過這些挑戰(zhàn)。

圖片

盡管存在這些挑戰(zhàn),但與頂級人類競爭者相比,01 -preview 展示了相當或更快的代碼生成速度。這說明 01 -preview 具有較強的推理能力,可以有效處理大部分的編碼任務(wù)。然而,在特別復(fù)雜或計算密集的情況下,模型的性能仍然有限,正如在這些困難的問題中觀察到的那樣。

圖 3 和圖 4 演示了編碼評估中的兩個示例。在圖 3 中,01 -preview 展示了它有效解決簡單問題的能力,用最少的計算時間完成任務(wù)并成功通過所有測試用例。然而,如圖 4 所示,該模型遇到了一個難題。在這個失敗案例中,01 -preview 最初生成了一個正確的解決方案,但是解決方案超出了時間限制。在第一次提交之后,模型陷入了試圖優(yōu)化代碼時間復(fù)雜度的循環(huán)中,這在隨后的嘗試中導(dǎo)致了不正確的解決方案。這個例子突出了該模型在處理需要顯著優(yōu)化的復(fù)雜問題時的掙扎,它為提高效率所做的努力導(dǎo)致了重復(fù)的錯誤。

圖片

放射學報告生成

為了評估 o1-preview 的醫(yī)學報告生成能力,作者使用了來自中南大學湘雅二醫(yī)院的中文放射學報告數(shù)據(jù)集 SXY。它包含 317,339 份放射學報告,分為五個類別:胸部報告、腹部報告、肌肉骨骼報告、頭部報告和頭頸面部報告。

作者通過比較 o1-preview 與基線模型(如 gpt-4-turbo、gpt-4o 等)的 ROUGE 指標,評估了 o1-preview 生成醫(yī)學報告的能力。表 3 提供了 o1-preview 與另外五種模型的詳細性能對比。

如表 3 所示,與醫(yī)生撰寫的報告相比,o1-preview 生成的報告的 ROUGE 評分為:R-1: 0.3019, R-2: 0.0448, R-L: 0.2841,在 6 種模型中排名最高。值得注意的是,o1-preview 的平均報告生成時間也最長,為 15.051 秒。

圖 5 和圖 6 展示了兩個例子,說明了作者對放射學報告生成的評估結(jié)果。在評估過程中,o1-preview 展示了在零樣本情況下快速生成可靠放射學報告的能力,突顯了其強大的推理和知識遷移能力,以及在醫(yī)療領(lǐng)域的潛力。作者觀察到,o1-preview 的報告與人類寫作模式高度一致,結(jié)構(gòu)清晰,語言簡潔。盡管其他模型未能達到最高的相似度分數(shù),但大多數(shù)模型能夠遵循指令并完成任務(wù)。

自然語言推理

在本節(jié)中,作者評估 o1-preview 在自然語言推理(NLI)任務(wù)上的表現(xiàn)。NLI 任務(wù)涉及確定兩個句子之間的邏輯關(guān)系,結(jié)構(gòu)化為一個分類任務(wù),其中第二個句子要么從第一個句子邏輯上推導(dǎo)出來,要么與第一個句子矛盾,要么是中立的(可能是真實的)。

作者從每個數(shù)據(jù)集的測試集中隨機抽取兩個測試樣本,共進行 10 個測試用例。表 4 給出了每個數(shù)據(jù)集的示例,其中 01 -preview 準確地分析了邏輯關(guān)系,展示了高級推理能力和特定于領(lǐng)域的知識。這展示了它在各種復(fù)雜場景中的實際應(yīng)用的潛力。

芯片設(shè)計

o1-preview 在芯片設(shè)計中的實驗涵蓋工程助手聊天機器人、EDA 腳本生成和錯誤總結(jié)分析三大關(guān)鍵任務(wù),展示了其在技術(shù)咨詢、代碼生成和錯誤檢測方面的強大能力。這些應(yīng)用不僅有望徹底改變半導(dǎo)體行業(yè),減少時間和錯誤成本,優(yōu)化設(shè)計性能,還標志著向?qū)崿F(xiàn)通用人工智能(AGI)的重要邁進,證明了 AI 在處理復(fù)雜、高風險專業(yè)任務(wù)中的潛力。

在評估 o1-preview 作為工程助手聊天機器人的表現(xiàn)時,作者發(fā)現(xiàn)其在多個任務(wù)中展現(xiàn)出比 ChipNeMo 更高級的解決問題能力。比如在第一個例子中(圖 21),詢問如何使用 testgen 框架運行多個隨機測試種子。ChipNeMo 的回應(yīng)雖然功能正確,但較為基礎(chǔ),缺乏對大規(guī)模模擬優(yōu)化的深入見解。相比之下,o1-preview 不僅覆蓋了基本配置步驟,還詳細解釋了如何并行化測試過程,確保測試的隨機性和可擴展性,展示了更高水平的專業(yè)知識,特別是在處理大規(guī)模模擬中的隨機數(shù)生成完整性和錯誤處理等關(guān)鍵問題上。

在 EDA 腳本生成任務(wù)中,作者測試了 o1-preview 和 ChipNeMo 生成 EDA 工具腳本的能力。

在圖 24 所示的第一個例子中,任務(wù)是編寫 TOOL1 代碼來統(tǒng)計給定矩形邊界內(nèi)的觸發(fā)器單元數(shù)量,這是物理設(shè)計中常見的操作,用于確定邏輯分布和優(yōu)化布局。ChipNeMo 的回應(yīng)提供了一個基本的解決方案,涵蓋了如何遍歷設(shè)計層次結(jié)構(gòu)并在指定區(qū)域內(nèi)計數(shù)觸發(fā)器的基本機制。雖然其結(jié)構(gòu)和功能正確,但靈活性有限,未涉及處理邊緣情況(如重疊區(qū)域或邊界條件)或優(yōu)化搜索算法以適應(yīng)更大設(shè)計的高級特性,這些在生產(chǎn)環(huán)境中是至關(guān)重要的。

相比之下,o1-preview 的回應(yīng)更為細致。除了提供核心代碼外,o1-preview 還討論了潛在的優(yōu)化策略,如如何高效遍歷大型設(shè)計和更優(yōu)雅地處理邊界條件。此外,o1-preview 還包括了擴展功能的注釋和建議,如添加計數(shù)其他類型單元的功能或?qū)⒛_本集成到更大的設(shè)計規(guī)則檢查自動化流程中。這一回應(yīng)展示了對實際 EDA 環(huán)境中復(fù)雜性的深刻理解,強調(diào)了靈活性和可擴展性的重要性。o1-preview 能夠預(yù)見工程師在大規(guī)模設(shè)計中部署此腳本時可能遇到的問題,使其回應(yīng)在專業(yè)環(huán)境中更具實用性。

圖片

在 Bug Summary & Analysis 任務(wù)中,作者測試了 o1-preview 和 ChipNeMo 分析與芯片布線電流測量相關(guān)的錯誤報告的能力,這是一個在芯片功率優(yōu)化中至關(guān)重要的任務(wù)。半導(dǎo)體設(shè)計中的錯誤分析不僅涉及識別問題的根本原因,還需要以一種使團隊能夠高效優(yōu)先處理和解決的方式總結(jié)問題。

ChipNeMo 的技術(shù)總結(jié)詳細列出了功耗測量的條件,如測試模塊的活動百分比和所需的電壓角。管理總結(jié)僅傳達了用戶之間的討論,沒有深入分析或提供明確的行動計劃。ChipNeMo 的回應(yīng)主要集中在總結(jié)錯誤報告的即時事實,缺乏對功耗測量對未來設(shè)計影響的深入分析,也沒有提出將硅數(shù)據(jù)與預(yù)硅估計相關(guān)聯(lián)的策略。

相比之下,o1-preview 不僅涵蓋了與 ChipNeMo 相同的技術(shù)和管理方面,還深入分析了功耗測量的更廣泛影響。它討論了布線功耗數(shù)據(jù)如何影響未來的芯片設(shè)計,特別是優(yōu)化功耗密度和提高面積效率,這些因素在現(xiàn)代芯片開發(fā)中至關(guān)重要。

此外,o1-preview 提供了更詳細的請求解讀,建議使用更精細的隔離技術(shù)和數(shù)據(jù)分解方法。它還提供了一個更清晰的任務(wù)分配框架,確保工程團隊能夠優(yōu)先處理任務(wù),并設(shè)定具體的時間表和里程碑,以隔離和測量布線宏單元的功耗。

高中數(shù)學推理

為了調(diào)查 o1-preview 的數(shù)學性能,作者設(shè)計了一系列涵蓋不同難度級別的測試。本節(jié)首先從高中數(shù)學競賽題目開始,隨后在下一節(jié)中涉及大學水平的數(shù)學問題,以便觀察模型在不同復(fù)雜度層次上的邏輯推理能力。

在本節(jié)中,作者選擇了兩個主要的數(shù)學領(lǐng)域:代數(shù)和計數(shù)與概率。選擇這兩個領(lǐng)域是因為它們高度依賴于問題解決技能,并且常用于評估邏輯和抽象思維。

具體來說,作者進行了 10 項測試,包括 5 個代數(shù)問題和 5 個計數(shù)與概率問題,難度等級從 1 到 5 不等。o1-preview 表現(xiàn)出色,所有 10 個測試案例均達到了 100% 的準確率。這一穩(wěn)定的表現(xiàn)表明,它能夠處理從簡單到復(fù)雜的各類數(shù)學問題。除了提供正確的最終答案外,o1-preview 的解決方案還詳細地展示了每一步的推理過程,這些步驟與參考答案中的關(guān)鍵步驟一致。這種詳細的解答方式表明,模型在數(shù)學領(lǐng)域的邏輯推理能力已接近人類水平。

以下是一些測試案例:  


大學數(shù)學推理

本節(jié)中的問題由作者手動創(chuàng)建。這些問題因其高度的抽象性和所需的復(fù)雜推理而特別具有挑戰(zhàn)性。這些問題可以大致分為以下幾類:

  • 基本離散數(shù)學問題。
  • 高級離散數(shù)學問題。
  • 微積分問題。
  • 高級定理的證明。

表 5 列出了 o1-preview 在各類問題中的答題情況。

圖片

總的來看,o1-preview 在大學數(shù)學推理中表現(xiàn)出了以下優(yōu)點:  

  • 全面的數(shù)學知識:o1-preview 對大學水平的數(shù)學術(shù)語和經(jīng)典定理有全面的理解。即使問題涉及高級概念,模型也能輕松理解問題陳述。當問題可以通過直接應(yīng)用一兩個定理(無論多高級)解決時,模型能夠有效地識別并應(yīng)用適當?shù)亩ɡ怼?/span>
  • 初步的創(chuàng)造性推理能力:o1-preview 展示了一定的創(chuàng)造性推理能力,能夠做出深刻的觀察,有時還會構(gòu)建小例子來輔助觀察。然而,這種能力尚處于初級階段,還不夠成熟。
  • 類似人類的錯誤:o1-preview 的一些錯誤非常像人類的錯誤。與早期模型(如 GPT-4o)的錯誤(常常模糊、重復(fù)且充滿無關(guān)細節(jié))不同,新模型的錯誤更加相關(guān)和可理解。實際上,這些錯誤類型類似于大學生可能會犯的錯誤。

但同時,他們也觀察到了一些局限性:  

  • 觀察和泛化的局限:雖然 o1-preview 能夠做出深刻的觀察并從構(gòu)建的例子中識別模式,但也可能被自己的觀察誤導(dǎo),導(dǎo)致不當?shù)姆夯?,誤以為巧合適用于更廣泛的情況??傮w來看,沒有證據(jù)表明模型真正理解邏輯原則。在面對長推理鏈時,模型甚至可能陷入循環(huán)推理。
  • 缺乏對問題難度的意識:o1-preview 似乎缺乏對問題難度的意識,往往優(yōu)先考慮效率而非適當性。例如,在問題 7 中,它應(yīng)用了過于先進的技術(shù)來解決一個中等難度的問題。
  • 處理不同類型問題的能力差異:總體而言,模型在處理高度抽象、需要高級定理但推理鏈較短的問題時表現(xiàn)更好,如最后五個問題。而在處理陳述簡單但需要較少高級知識且推理過程較長的問題時表現(xiàn)較差,如三個高級離散數(shù)學問題。

作者在論文中針對很多問題都給出了詳細分析。

結(jié)論

作者對 o1-preview 在不同領(lǐng)域的全面評估揭示了幾個主要觀點: 

  • 高級推理能力:o1-preview 在高中數(shù)學、量化投資和芯片設(shè)計等多個領(lǐng)域都表現(xiàn)出卓越的邏輯推理能力。它顯示出很強的逐步解決問題的能力,以及處理復(fù)雜、多層次任務(wù)的能力。
  • 特定領(lǐng)域知識:該模型在醫(yī)學遺傳學、放射學、人類學和地質(zhì)學等不同領(lǐng)域的知識廣度令人印象深刻。在這些領(lǐng)域,它的表現(xiàn)經(jīng)常達到或超過研究生或早期職業(yè)專業(yè)人士的水平。
  • 創(chuàng)造性和實際應(yīng)用:在三維布局生成和藝術(shù)教育等領(lǐng)域,o1-preview 展示了創(chuàng)造力和實際應(yīng)用技能,生成了功能設(shè)計和結(jié)構(gòu)化教案。不過,在這些領(lǐng)域,它仍然缺乏人類專家的靈活性和適應(yīng)性。
  • 自然語言理解:該模型在情感分析、社交媒體分析和內(nèi)容摘要等需要細微語言理解的任務(wù)中表現(xiàn)出色。它展示了捕捉復(fù)雜表達(如諷刺和挖苦)的能力,但在處理非常微妙的情感細微差別時仍有困難。
  • 科學與醫(yī)學推理:o1-preview 在醫(yī)學診斷、放射報告生成和回答復(fù)雜的醫(yī)學考試問題方面表現(xiàn)出了很強的能力。雖然它在這些方面表現(xiàn)出色,但其推理過程有時與訓(xùn)練有素的醫(yī)學專家有所不同。
  • 局限和有待改進的地方:盡管 o1-preview 的表現(xiàn)令人印象深刻,但它在處理極其抽象的邏輯謎題、適應(yīng)實時動態(tài)情況以及在高等數(shù)學和隨機過程等領(lǐng)域的最復(fù)雜任務(wù)中始終表現(xiàn)出色方面仍存在局限性。
  • 現(xiàn)實世界的應(yīng)用潛力:該模型的性能表明,它在教育支持、醫(yī)療援助、金融分析和科學研究等各個領(lǐng)域都有巨大的應(yīng)用潛力。不過,在關(guān)鍵的實際應(yīng)用場景中部署之前,還需要進一步完善和驗證。

更多詳細信息請參見原論文。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-09-19 17:44:04

2024-09-24 11:01:03

2024-11-07 15:40:00

2024-08-02 13:14:51

2023-07-26 15:13:33

人工智能OpenAI

2024-10-05 00:00:00

2024-11-07 13:16:26

2024-10-05 12:00:00

2024-09-19 18:03:31

2024-12-23 07:30:00

OpenAIo3-mini人工智能

2024-12-23 07:40:00

AI模型數(shù)學

2022-11-07 07:28:39

大腦創(chuàng)傷功能

2024-10-22 18:05:59

2024-05-10 14:35:56

人工智能大型語言模型

2024-11-21 12:43:06

2024-10-17 13:30:00

2024-12-05 10:16:14

2024-11-25 15:50:00

模型訓(xùn)練

2024-09-25 09:30:16

2025-02-03 14:17:27

點贊
收藏

51CTO技術(shù)棧公眾號