自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌的“雙子星”,正在圍剿一眾大模型

原創(chuàng) 精選
人工智能
如果說o3主打的是“干實事”,那么谷歌這次的新發(fā)布則是告訴我們:什么是“成本可控”的極致性價比。這次的發(fā)布以后立馬引來一眾開發(fā)者的討論,不過這次不是負(fù)面的,而是全面的好評。

編輯 | 云昭

繼昨天凌晨OpenAI推出滿血o3、o4-mini之后,沒想到谷歌邁著“LLM王者”的步伐給出了自家的模型SOTA研究Gemini2.5 Flash。

如果說o3主打的是“干實事”,那么谷歌這次的新發(fā)布則是告訴我們:什么是“成本可控”的極致性價比。

這次的發(fā)布以后立馬引來一眾開發(fā)者的討論,不過這次不是負(fù)面的,而是全面的好評。

1.Gemini 2.5 Flash的最大賣點控制大模型的思考預(yù)算

今天剛剛推出來的谷歌的新模型,是通過Google AI StudioVertex AI以預(yù)覽版形式發(fā)布的。

從官網(wǎng)發(fā)布的博客來看,個人看來最大的亮點在于:可開啟或關(guān)閉思考+給大模型引入了“思考預(yù)算”的可控機制。這種機制可以讓開發(fā)人員指定在生成響應(yīng)之前應(yīng)分配多少計算能力用于推理復(fù)雜問題。

個人認(rèn)為,這是谷歌一個非常務(wù)實的戰(zhàn)略性舉措,重要性不亞于昨天OpenAI發(fā)布的能干實事的o3、o4-mini。

因為采用“思考預(yù)算”這種方法非常契合解決如今AI市場的一個根本矛盾:更復(fù)雜的推理,通常以更高的延遲和更高的價格為代價,進而影響了先進模型的采用和普及。

具體到Gemini 2.5 Flash的思考預(yù)算是如何制定的?

谷歌為了給開發(fā)者提供足夠的靈活性,特別添加了“思考預(yù)算設(shè)置”,可以精細(xì)控制模型在思考時能夠生成的最大token數(shù)量。更高的預(yù)算允許模型進一步推理,從而提高質(zhì)量。

圖表顯示,隨著思維預(yù)算的增加,推理質(zhì)量有所提高圖表顯示,隨著思維預(yù)算的增加,推理質(zhì)量有所提高

更重要的是,預(yù)算設(shè)置了 Gemini 2.5 Flash 的思考能力上限,但如果任務(wù)不需要,模型不會用盡全部預(yù)算。據(jù)了解,思考預(yù)算可以從0調(diào)整到24,576個token,作為一個最大限制而不是固定分配。根據(jù)谷歌的說法,模型會根據(jù)任務(wù)的復(fù)雜性智能地決定使用多少預(yù)算,在不需要復(fù)雜推理時節(jié)省資源。

有了這些,開發(fā)者就可以在質(zhì)量、成本和延遲之間找到合適的平衡點。

2.思考與不思考:6倍價格差

價格方面,在Gemini 2.5 Flash中,每百萬個token的輸入成本為0.15美元。輸出成本則根據(jù)推理設(shè)置而存在顯著差異:關(guān)閉思考功能時每百萬token為 0.6美元,而啟用推理功能時則為每百萬token 3.5美元。

推理輸出的近六倍價格差異反映了“思考”過程的計算強度,其中模型在生成響應(yīng)之前會評估多種潛在路徑和考慮因素。

Gemini 2.5 Flash 性價比對比Gemini 2.5 Flash 性價比對比

圖源:谷歌整理的每百萬token價格和性能的帕累托圖

這里值得注意的是,單純關(guān)注定價變化已經(jīng)意義不大,小編認(rèn)為更大的意義上在于,谷歌做了一件值得思考的動作,即,谷歌給出了一種讓公司老板或者獨立開發(fā)者們非常方便的大模型的成本考量尺度:用推理輸出的價格差異來度量“思考”過程的計算強度。

正如谷歌Gemini產(chǎn)品總監(jiān)在采訪中所提到的:“客戶需要為模型生成的任何思考和輸出token付費。在 AI Studio UX 中,你可以在響應(yīng)之前看到這些思考。在 API 中,我們目前不提供對這些思考的訪問權(quán)限,但開發(fā)人員可以查看生成的token數(shù)量?!?/span>

3.根據(jù)提示詞自動調(diào)整思考時長

當(dāng)然,除了思考預(yù)算設(shè)置,Gemini 2.5 Flash 還有一項“思考時長”的感知能力。據(jù)谷歌介紹,該模型經(jīng)過訓(xùn)練可以知道對于給定的提示需要思考多長時間,因此可以根據(jù)感知到的任務(wù)復(fù)雜性自動決定思考多少。

也就是說,根據(jù)你所問的問題的復(fù)雜程度,自動調(diào)整推理程度,從而可以更快地回答更簡單的請求。此外,即使即使關(guān)閉“思考”,開發(fā)者也能保持 2.0 Flash 的快速運行速度,并提升性能。

谷歌將提示詞按照需要推理能力的強弱分成了三種:較少推理能力、中等推理能力、高級推理能力。具體粒度究竟如何?可以看下面幾個示例。

需要較少推理能力的提示:加拿大有多少個???(可以理解成“事實性”拷問)

需要中等推理能力的提示:你擲兩個骰子。它們加起來等于 7 的概率是多少?(高中數(shù)學(xué)題)

還有一個不錯的提示示例:

我的健身房每周一至周五上午 9 點至下午 3 點以及周二和周六下午 2 點至晚上 8 點安排籃球訓(xùn)練。如果我每周工作 5 天,上午 9 點至下午 6 點,并且希望在工作日打 5 個小時籃球,請為我制定一個時間表,確保一切順利。(簡單的辦公規(guī)劃)

需要高度推理的提示:計算于梁應(yīng)力、開發(fā)者常用的復(fù)雜函數(shù)編程等復(fù)雜工程問題。

編寫一個evaluate_cells(cells: Dict[str, str]) -> Dict[str, float]計算電子表格單元格值的函數(shù)。

每個單元格包含:

  • 一個數(shù)字(例如"3")
  • "=A1 + B1 * 2"或者像使用+、、和其他單元格-的公式。*/

要求:

  • 解決單元格之間的依賴關(guān)系。
  • 處理運算符優(yōu)先級(*/之前+-)。
  • 檢測循環(huán)并提出ValueError("Cycle detected at <cell>")。
  • 不要使用eval()。僅使用內(nèi)置庫。

4.R1、Sonnet3.7被比下去了

Gemini 2.5 Flash在關(guān)鍵基準(zhǔn)測試中展現(xiàn)出極具競爭力的性能,同時保持了比其他同類產(chǎn)品更小的模型規(guī)模。

在一項旨在評估推理和知識的嚴(yán)格測試“人類的最后考試”中,Gemini 2.5 Flash 的得分為 12.1%,優(yōu)于 Anthropic 的Claude 3.7 Sonnet(8.9%)和DeepSeek R1(8.6%),但略低于 OpenAI 近期推出的o4-mini(14.3%)。

圖片圖片

該模型在博士級水平的科學(xué)問題評估GPQA Diamond(78.3%)和AIME 數(shù)學(xué)考試(2025 年測試中為 78.0%,2024 年測試中為 88.0%)等技術(shù)基準(zhǔn)上也取得了優(yōu)異的成績。

據(jù)了解,Doshi對自己的作品信心滿滿,“企業(yè)應(yīng)該選擇 2.5 Flash,因為它在成本和速度方面提供了最佳價值。同時,它在數(shù)學(xué)、多模態(tài)推理、長上下文和其他幾個關(guān)鍵指標(biāo)方面都比競爭對手更加強大。”

言外之意,很簡單,谷歌的模型比同行在關(guān)鍵指標(biāo)性能上更強大,而在成本上更便宜,速度上更快。沒有理由不選擇谷歌。

還有一個重要的風(fēng)向變化。谷歌這次除了狠狠地命中了企業(yè)開發(fā)者在使用LLM時的成本、性能、速度的“死亡三角”的痛點,同時還在高校學(xué)生側(cè)發(fā)力了。

據(jù)悉,Gemini 2.5 Flash的發(fā)布正值谷歌AI周,今天除了發(fā)布 2.5 Flash 之外,谷歌還宣布所有美國大學(xué)生在 2026 年春季之前都可以免費使用 Gemini Advanced。

谷歌開始明目張膽地在學(xué)生側(cè)發(fā)起沖鋒,可以被視作這樣一種信號:谷歌準(zhǔn)備一場長線的戰(zhàn)斗,因為這些高效學(xué)生都是未來的知識型員工,而知識型員工正是大模型市場的必爭之地。當(dāng)然,學(xué)生使用一款大模型的慣性或者說忠誠度究竟如何,尚有待考證。

5.網(wǎng)友熱議:谷歌正在贏下LLM比賽

隨著Gemini2.5發(fā)布以來,越來越多的開發(fā)者開始重新審視LLM玩家在自己心中的地位。

“谷歌正在悄悄地贏得AI競賽”的聲音越來越多。一位網(wǎng)友表示:Gemini Flash系列模型的宣傳水分是最少的,以自己的生產(chǎn)經(jīng)驗來看,谷歌提供了最好的性價比體驗和多模態(tài)工具。

圖片圖片

同樣,在知乎上,同樣也拋出了類似的問題。

圖片圖片

這條帖子下面有網(wǎng)友用“龜兔賽跑”來比喻現(xiàn)在的LLM競賽,用兔子來形容優(yōu)勢明顯的谷歌:數(shù)據(jù)頂級、人才頂級、算力不愁,只不過這場LLM競賽顯然不是短跑,而是一場足以讓谷歌中途打盹醒過來快速超過對手的長途馬拉松。

圖片圖片

這位答主已經(jīng)說得非常形象,這里不再贅述。

但這里想從另一種視角來聊這種現(xiàn)象。在兩年前甚至去年上半年時,大家對于谷歌的印象還停留在“狼狽不堪”的防守姿態(tài)上。OpenAI每次都成功截胡谷歌的新發(fā)布,而且每次新發(fā)布都伴隨著這樣或那樣的質(zhì)疑的聲音。

但近四個月以來,我們會發(fā)現(xiàn)這種現(xiàn)象已經(jīng)消失了。取而代之的則是一片“叫好”的口碑。

就比如這次的模型發(fā)布后,hackernews下方很多網(wǎng)友表示:Gemini的輸出質(zhì)量和風(fēng)格相較于OpenAI的o1和Anthropic的Claude都有很大的不同,印象深刻。

別的模型往往卑躬屈膝,而Gemini則表現(xiàn)得更像是一位“諫議大夫”,“Gemini似乎不太愿意同意我的觀點。它做出了一些小的改進,而Claude和ChatGPT則會接受最初的提議,直到被特別要求才會做出改進?!?/span>

圖片圖片

“跟Gemini 2.5 Pro對話,感覺就像是和一個知識淵博、聰明絕頂?shù)娜嗽谵q論?!?/span>

圖片圖片

這其實很直接的就能表明:谷歌的大模型,已經(jīng)在趕上甚至超越同行。注重大模型用戶的切實需求和體驗,正在讓谷歌贏得用戶的認(rèn)可。

此外,值得注意的是,谷歌正在摸索自己的大模型演進路徑。而不是以往被動追趕的姿態(tài)。此次OpenAI的o3發(fā)布走的是“大模型使用工具”的風(fēng)格,但谷歌似乎并不care,將自己認(rèn)為正確的“細(xì)粒度的思考預(yù)算控制”功能擺到臺面上切作為最大亮點進行推出。

可以看出谷歌已經(jīng)開始觸到了那根大模型產(chǎn)品演進的主線脈絡(luò)。

不過,或許從模型層面上看,谷歌的Gemini雖然可圈可點,但從日活數(shù)據(jù)上看,還遠遠沒有達到贏得競賽的程度。據(jù)第三方分析稱, ChatGPT每周用戶超過 8 億,而 Gemini每月用戶估計為 2.5 億至 2.75 億。

但長遠看,基礎(chǔ)模型的領(lǐng)先加上極致可控的性價比,Gemini的用戶勢必會迎來新一波的暴漲。

正如下面這位轉(zhuǎn)向使用Gemini的網(wǎng)友所說:我同意Claude非常好,但我從未覺得它在實際工作中很舒服,3.7中有很多過度設(shè)計而半生不熟的解決方案,而這使得自己付出API的費用物失所值。

圖片圖片

可以想象在一年后的某天,幾個開發(fā)者調(diào)侃某個大模型產(chǎn)品或功能:“不是XX我買不起,而是XX家的更有性價比!”

到那時候,大模型的生態(tài)才算是塵埃落定了。

參考鏈接:

https://developers.googleblog.com/en/start-building-with-gemini-25-flash/

https://news.ycombinator.com/item?id=43720845


責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2020-07-30 09:00:00

華為

2011-06-13 12:52:14

愛普生掃描儀

2025-02-05 08:11:39

2016-09-23 11:46:00

網(wǎng)絡(luò)硬件

2025-04-15 19:29:34

2010-05-18 11:20:24

華碩服務(wù)器主板

2010-07-29 13:30:54

Hibari

2024-01-08 09:11:24

編程語言歐洲

2023-07-05 14:53:49

模型黑馬項目Github

2017-09-19 14:21:37

AI

2023-05-05 13:29:04

模型推理

2024-11-21 13:53:09

微軟AI技術(shù)

2015-10-23 10:09:15

寶德多子星服務(wù)器

2019-04-18 16:10:35

ZStack Mini超融合混合云

2024-04-10 12:42:51

AI模型

2022-11-01 13:52:44

AI數(shù)學(xué)

2020-06-02 15:29:56

Android 11谷歌安卓
點贊
收藏

51CTO技術(shù)棧公眾號