OpenAI o1很強(qiáng),也能被玩壞!
OpenAI草莓Q*項(xiàng)目終于發(fā)布了,OpenAI o1在具有挑戰(zhàn)性的推理基準(zhǔn)上遙遙領(lǐng)先于GPT-4o,即使在一些基準(zhǔn)上超過了人類PhD水平,也能被玩壞
實(shí)線表示pass@1準(zhǔn)確率,陰影區(qū)域表示 64 個(gè)樣本的多數(shù)投票(共識(shí))表現(xiàn)
OpenAI o1思考一個(gè)“句子編寫”問題,足足花費(fèi)92s,經(jīng)歷了漫長的thinking過程:
- 識(shí)別單詞模式
- 映射單詞關(guān)系
- 識(shí)別押韻模式
- ...
- 權(quán)衡各種模式
編寫一個(gè)句子,遵循與句子 "isold bowls to bold souls" 相同的規(guī)則,其中包含四個(gè)關(guān)鍵詞,sold、bowls、bold 和 souls,并且第1個(gè)和第3個(gè)單詞的結(jié)尾相同,第2個(gè)和第4個(gè)單詞的結(jié)尾相同,第1個(gè)和第4個(gè)單詞的開頭相同,第2個(gè)和第3個(gè)單詞的開頭相同。
經(jīng)典問題,OpenAI o1思考了5s,9.11比9.8大,更換了提問方式后,思考了18s,9.8比9.11大,要多思考ing。
最后來一個(gè)有挑戰(zhàn)的問題,“統(tǒng)計(jì)response的字?jǐn)?shù)”,OpenAI o1雖然意識(shí)到這是一個(gè)悖論query,經(jīng)過5個(gè)推理過程,最終回答是7個(gè)words。
- query:How many words are in your response to this prompt?
- 解決自相矛盾的問題
- 計(jì)算字?jǐn)?shù)
- 識(shí)別單詞模式
- 計(jì)算字?jǐn)?shù)
- 澄清回應(yīng)的準(zhǔn)確性
最后一個(gè)經(jīng)典問題是讓OpenAI草莓項(xiàng)目數(shù)草莓R個(gè)數(shù),這次終于是數(shù)對(duì)了,3個(gè)R
另外OpenAI o1給出了思考的過程,也會(huì)給出一些推理步驟,這個(gè)過程似曾相識(shí):Reflection Llama-3.1 70B的思考過程
???Reflection Llama-3.1 70B真的翻車了嗎????
https://openai.com/index/learning-to-reason-with-llms/
本文轉(zhuǎn)載自 ??PaperAgent??,作者: PaperAgent
