推理最強(qiáng)也最快，谷歌發(fā)布Gemini 2.0 Flash Thinking，全面超越o1-preview

作者：機(jī)器之心 2024-12-20 14:30:00

據(jù) Jeff Dean 介紹，Gemini 2.0 Flash Thinking 還會(huì)明確展示其思考過(guò)程。

不僅能推理，還能明確展示自己「推理邏輯」的大模型出現(xiàn)了。

OpenAI 的 12 天連續(xù)發(fā)布已近尾聲，但它的熱度顯然已經(jīng)被谷歌奪去了許多。從 Gemini 2.0 Flash 到 Veo 2 到今天的 Gemini 2.0 Flash Thinking，谷歌端上來(lái)的菜真是一道比一道香。

從名字也能看出來(lái)，Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash，只是其經(jīng)過(guò)專門訓(xùn)練，可使用思維（thoughts）來(lái)增強(qiáng)其推理能力。

據(jù) Jeff Dean 介紹，Gemini 2.0 Flash Thinking 還會(huì)明確展示其思考過(guò)程。下面是 Jeff Dean 在 X 上發(fā)布的一個(gè) demo—— 其中，模型解答了一個(gè)物理問(wèn)題并解釋了自己的推理過(guò)程，整個(gè)過(guò)程耗時(shí) 1 分多鐘。

雖然 Flash 版本還不是 Gemini 2.0 的滿血版，但這個(gè) Thinking 模型就已經(jīng)登頂了 Chatbot Arena 排行榜。Gemini 2.0 Flash Thinking 不僅是總分第一，在編程、數(shù)學(xué)、創(chuàng)意寫作等各項(xiàng)評(píng)測(cè)任務(wù)上都是第一名（有些是并列第一）。

Targum 創(chuàng)始人和 CEO Alex Volkov 則通過(guò) 10 個(gè)難題對(duì) o1-2024-12-17 和 gemini-2.0-flash-thinking-exp-1219 進(jìn)行了對(duì)比測(cè)試，結(jié)果發(fā)現(xiàn)這兩個(gè)推理模型的表現(xiàn)相當(dāng)，而后者的速度要快得多。

而根據(jù)另一位研究者 Subhash Peshwa 的測(cè)算，Gemini 2.0 Flash Thinking 的思考速度是 o1-mini 的 2 倍。

Gemini 2.0 Flash Thinking 發(fā)布后，網(wǎng)友們都紛紛點(diǎn)贊，并樂見其與 ChatGPT 和 Claude 等聊天機(jī)器人的競(jìng)爭(zhēng)。

目前，Gemini 2.0 Flash Thinking 實(shí)驗(yàn)版完全可以免費(fèi)使用，感興趣的讀者可訪問(wèn)：https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-1219

表現(xiàn)優(yōu)異，但也會(huì)犯錯(cuò)

首先，Gemini 2.0 Flash Thinking 在數(shù)學(xué)推理方面速度快、質(zhì)量高。例如，Gemini 2.0 Flash Thinking 在 14 秒內(nèi)破解了 goto 數(shù)學(xué)題，比任何其他可以解決該問(wèn)題的模型快 5 倍：

在一道求解數(shù)學(xué)期望的問(wèn)題上，OpenAI 的 o1 求解錯(cuò)誤，而且推理速度很慢，而 Gemini 2.0 Flash Thinking 僅用 2/7 的時(shí)間就正確解答：

解一道簡(jiǎn)單的數(shù)學(xué)推理題：挑選數(shù)字小球，使數(shù)字總和為 30：

來(lái)源：https://x.com/OfficialLoganK/status/1869789822384255300

Gemini 2.0 Flash Thinking 迅速解答，而且給出了詳細(xì)的推理過(guò)程。

DeepMind 首席科學(xué)家 Jack Rae 在紙上手寫了一道數(shù)論問(wèn)題，也是他的工作面試問(wèn)題，Gemini 2.0 Flash Thinking 輕松解決了：

來(lái)源：https://x.com/drjwrae/status/1869806621024772096

可見，Gemini 2.0 Flash Thinking 可以準(zhǔn)確識(shí)別視覺內(nèi)容，并進(jìn)行數(shù)學(xué)推理。

有時(shí)也會(huì)翻車，知道「strawberry」有 3 個(gè)「r」，但「strawberrry」就數(shù)不清了：

「9.9 和 9.11 誰(shuí)大」這事還是沒能解決：

順帶一提，關(guān)于現(xiàn)在的 LLM 難以數(shù)出 strawberry 中 r 數(shù)量的深層原因，可以參閱機(jī)器之心之前的報(bào)道《他們掰開神經(jīng)元，終于讓大模型 9.8 大于 9.11 了：神秘創(chuàng)業(yè)公司，開源 AI「洗腦」工具》。

Gemini 2.0 Flash Thinking 還有能力理解和解答非常困難的問(wèn)題，比如斯坦福 NLP 的統(tǒng)計(jì)學(xué)家 Zitong Yang 就分享了自己的一個(gè)用來(lái)測(cè)試推理模型的問(wèn)題：三賭徒問(wèn)題。然后他驚喜地發(fā)現(xiàn)，Gemini 2.0 Flash Thinking 成為了首個(gè)正確解答該問(wèn)題的模型，而他之前測(cè)試的 o1-preview、o1、r1、QwQ 模型都未能過(guò)關(guān)。

三賭徒問(wèn)題：假設(shè)三個(gè)賭徒最初有 (a, b, c) 美元。每次試驗(yàn)都是隨機(jī)選擇兩個(gè)玩家，讓他們公平地?cái)S一枚硬幣；根據(jù)輸贏，他們會(huì)正常地轉(zhuǎn)手 1 美元。玩家一旦破產(chǎn)，就會(huì)退出。令 (S_1) 表示一名玩家破產(chǎn)所需的游戲局?jǐn)?shù)。令 (S_2) 表示兩名玩家破產(chǎn)所需的游戲局?jǐn)?shù)。求 S_1 和 S_2 的期望。

下面是 Gemini 2.0 Flash Thinking 的部分思考過(guò)程和最終答案。

機(jī)器之心也上手進(jìn)行了一番測(cè)試?？紤]到網(wǎng)絡(luò)上已有大量使用英語(yǔ)的測(cè)試，這里我們就僅使用漢語(yǔ)了。

首先來(lái)看看 Gemini 2.0 Flash Thinking 的編程能力：寫一個(gè)井字棋小游戲，其中用兩個(gè)不同的 emoji 標(biāo)記雙方的棋子。

可以看到，該模型用了 10.8s 思考，然后用 21.0s 完成了任務(wù)。測(cè)試一下，該模型生成的代碼確實(shí)能正確實(shí)現(xiàn)功能。

這里再測(cè)試一道來(lái)自《孫子算經(jīng)》的古代數(shù)學(xué)題：今有物不知其數(shù)，三三數(shù)之剩二；五五數(shù)之剩三；七七數(shù)之剩二。問(wèn)物幾何？

這一次，Gemini 2.0 Flash Thinking 思考了 11.1s，解答過(guò)程則用了 16.3s。有意思的是，該模型不僅正確解答了問(wèn)題，也根據(jù)自己的知識(shí)庫(kù)對(duì)相關(guān)信息進(jìn)行了擴(kuò)展說(shuō)明。

Gemini 2.0 Flash Thinking 也支持輸入圖片和音頻等模態(tài)的數(shù)據(jù)，可以幫助我們理解梗圖或者解答手寫的數(shù)學(xué)問(wèn)題。

最后，我們來(lái)試試 Gemini 2.0 Flash Thinking 能否解讀中文的驗(yàn)證碼。

很顯然，它徹底失敗了，一個(gè)字都沒能正確識(shí)別出來(lái)，所以暫時(shí)還不用擔(dān)心被 AI 盜號(hào)了。

Gemini 2.0 Flash Thinking，著實(shí)有趣，就是名字有點(diǎn)長(zhǎng)。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 模型生成

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

推理最強(qiáng)也最快，谷歌發(fā)布Gemini 2.0 Flash Thinking，全面超越o1-preview

表現(xiàn)優(yōu)異，但也會(huì)犯錯(cuò)

推理最強(qiáng)也最快，谷歌發(fā)布Gemini 2.0 Flash Thinking，全面超越o1-preview

表現(xiàn)優(yōu)異，但也會(huì)犯錯(cuò)