Gemini 2.0 Flash Thinking:谷歌放大招!能"直播思考"的AI來了,推理能力吊打OpenAI? 原創(chuàng) 精華
01、概述
最近,Google推出了全新的Gemini 2.0 Flash Thinking Experimental,并將其從之前僅在Google AI Studio、Gemini API以及Vertex AI上的使用,擴(kuò)展到了Gemini應(yīng)用的用戶。這一變化無疑是人工智能領(lǐng)域的一個重要節(jié)點(diǎn),它不僅為推理型模型帶來了更強(qiáng)大的功能,也重新定義了我們與AI互動的方式。
02、什么是Gemini 2.0 Flash Thinking?
Gemini 2.0 Flash Thinking是Google推出的一款專注于推理的AI模型。與傳統(tǒng)的語言模型不同,它的最大特點(diǎn)并不在于簡單地提供答案,而是將推理過程展現(xiàn)給用戶。這意味著它不僅給出答案,還會逐步展現(xiàn)思考的步驟,評估不同的選項(xiàng),并解釋得出結(jié)論的思考方式。
推理的核心:展示思維過程
相比于OpenAI的O系列和DeepSeek的R系列,Gemini 2.0 Flash Thinking的最大優(yōu)勢就在于其速度和透明度。傳統(tǒng)的AI模型更多的是通過流暢的文本生成來回答問題,而Flash Thinking則像是你請了一個聰明的助手,給你展示每一步是怎么想的,如何做出決策,甚至?xí)岢銎渌赡艿倪x項(xiàng)。
它不僅能解答問題,還能讓你看到其解題的每一步,這種透明度大大增強(qiáng)了用戶對AI推理的信任感。
03、2.0 Flash Thinking:多模態(tài)與大規(guī)模推理的結(jié)合
支持多模態(tài)輸入
Gemini 2.0 Flash Thinking是一個多模態(tài)模型,意味著它不僅能處理文本輸入,還能處理圖像。簡單來說,它能夠理解并分析包含圖像的復(fù)雜任務(wù),比如解讀圖表、分析復(fù)雜文檔,甚至從圖片中提取信息。這為需要視覺信息的任務(wù)打開了新的可能性,尤其是在需要圖表分析或復(fù)雜文件解讀時,F(xiàn)lash Thinking展現(xiàn)出了極強(qiáng)的優(yōu)勢。
超大上下文窗口
一個特別令人興奮的特點(diǎn)是,Gemini 2.0 Flash Thinking的上下文窗口非常大,支持最多達(dá)100萬個tokens的輸入,且生成的輸出可達(dá)到64,000 tokens。這使得它能夠處理更大規(guī)模的數(shù)據(jù),甚至能在長篇書籍、研究論文或長時間對話的上下文中維持連貫性。
這種大規(guī)模的上下文處理能力意味著,它能夠更加全面地推理,理解更多信息,并減少用戶需要反復(fù)輸入上下文的麻煩。
知識截止期和工具集成
然而,也要注意到一個限制:Gemini 2.0 Flash Thinking的知識截止日期為2024年6月。這意味著它無法獲得2024年6月之后發(fā)生的事件的信息,因此在某些情況下可能會出現(xiàn)“幻覺”——也就是錯誤的推理或假設(shè)。例如,它可能會錯誤地推測出某個事件的時間,或者對某些新技術(shù)和更新的了解不夠深入。
為了解決這一問題,Google為Flash Thinking集成了YouTube、地圖和搜索等功能。通過這些工具,用戶可以獲得更為實(shí)時的信息,盡管這些信息也存在一定的不準(zhǔn)確性。比如當(dāng)我詢問Gemini 2.0 Flash Thinking的發(fā)布日期時,它通過搜索工具獲取了相關(guān)信息,但由于搜索結(jié)果中包含了錯誤的日期(2025年2月6日),它也錯誤地推測了發(fā)布日期。
自動選擇工具的功能
Gemini 2.0 Flash Thinking還能根據(jù)用戶的提問自動選擇最合適的工具。例如,當(dāng)我詢問從布加勒斯特到倫敦的最佳駕駛路線時,它自動選擇了Google Maps工具。這個自動化的選擇功能提高了模型的智能性,使得它在處理不同類型的問題時更加高效和精準(zhǔn)。
04、Flash Thinking的基準(zhǔn)表現(xiàn)
數(shù)學(xué)與科學(xué)的突破性進(jìn)展
Gemini 2.0 Flash Thinking在多個關(guān)鍵領(lǐng)域的表現(xiàn)上都有顯著提升,特別是在數(shù)學(xué)、科學(xué)和多模態(tài)推理方面的表現(xiàn)。在AIME2024(數(shù)學(xué))基準(zhǔn)測試中,Gemini 2.0 Flash Thinking的成績?yōu)?3.3%,比其前代版本(35.5%)有了巨大的提升,雖然與OpenAI的o3-mini(87.3%)相比還有差距,但無疑表現(xiàn)十分出色。
在GPQA Diamond(科學(xué))基準(zhǔn)測試中,F(xiàn)lash Thinking的成績?yōu)?4.2%,相比于之前版本(58.6%)有了顯著提高,與DeepSeek的R1(71.5%)和OpenAI的o1(75.7%)接近,展現(xiàn)了其在科學(xué)領(lǐng)域的競爭力。
而在MMMU(多模態(tài)推理)基準(zhǔn)測試中,Gemini 2.0 Flash Thinking的得分為75.4%,再一次超越了前代產(chǎn)品,顯示出了在多模態(tài)數(shù)據(jù)處理方面的巨大優(yōu)勢。
推理能力與推理計(jì)算
與其他推理模型類似,Gemini 2.0 Flash Thinking的推理能力隨著計(jì)算能力的增強(qiáng)而提升。推理計(jì)算是指在用戶給出問題后,AI進(jìn)行推理的計(jì)算量。通過增加推理計(jì)算的能力,Gemini 2.0 Flash Thinking能夠更準(zhǔn)確地完成復(fù)雜的推理任務(wù)。
05、如何使用Gemini 2.0 Flash Thinking
如何獲取訪問權(quán)限
目前,Google通過多個平臺為用戶提供了訪問Gemini 2.0 Flash Thinking的途徑:
- Gemini應(yīng)用(App和Web):用戶可以直接通過Gemini Web應(yīng)用或手機(jī)App免費(fèi)體驗(yàn)Flash Thinking。
- Google AI Studio:這是一個更適合高級用戶的Web平臺,可以讓用戶通過控制模型的參數(shù)、測試復(fù)雜的查詢等方式,進(jìn)一步探索模型的推理能力。
- Gemini API:對于開發(fā)者來說,可以通過Gemini API將Flash Thinking集成到自己的應(yīng)用中,帶來更多的自定義和靈活性。
06、結(jié)論:推理的未來與AI的廣闊前景
Gemini 2.0 Flash Thinking無疑是Google在推理型AI領(lǐng)域的重要一步。通過展示思維過程和結(jié)構(gòu)化的推理,F(xiàn)lash Thinking不僅提升了AI與人類的互動質(zhì)量,還大大增強(qiáng)了推理型任務(wù)的準(zhǔn)確性。雖然它在某些方面仍然面臨挑戰(zhàn),比如偶爾出現(xiàn)的不準(zhǔn)確性和對工具的過度依賴,但它無疑是未來推理型AI模型的一個標(biāo)桿。
未來,隨著Flash Thinking不斷優(yōu)化和競爭對手的趕超,我們可以期待更加智能、精準(zhǔn)、透明的AI推理體驗(yàn)。如果你也在構(gòu)建AI產(chǎn)品,或者對這一領(lǐng)域充滿好奇,不妨親自嘗試一下Gemini 2.0 Flash Thinking,在推理、科學(xué)計(jì)算和多模態(tài)任務(wù)中的表現(xiàn)決定也會讓你感到驚喜。
本文轉(zhuǎn)載自公眾號Halo咯咯 作者:基咯咯
原文鏈接:??https://mp.weixin.qq.com/s/S3CsbYAoj-x9eefIwFBN4Q??
