自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="fubnd"><center id="fubnd"><samp id="fubnd"></samp></center></abbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

谷歌大模型“性?xún)r(jià)比之王”來(lái)了！混合推理模型，思考深度可自由控制，競(jìng)技場(chǎng)排名僅次于自家Pro

2025-04-18 10:43:23

人工智能新聞

作為更注重效率的Flash，在大模型競(jìng)技場(chǎng)上排名并列第二，第一是自家的Gemini 2.5 Pro。

緊跟o4-mini，谷歌上新了Gemini 2.5 Flash preview版本。

作為更注重效率的Flash，在大模型競(jìng)技場(chǎng)上排名并列第二，第一是自家的Gemini 2.5 Pro。

這樣的表現(xiàn)，讓Gemini 2.5 Flash的性?xún)r(jià)比直接拉滿(mǎn)。

而且還是一款混合推理模型，可以自由設(shè)定思考深度，幫助預(yù)算不足的用戶(hù)進(jìn)一步控制推理成本。

目前，preview版本（不同于Gemini網(wǎng)頁(yè)版中的版本）已在Google AI Studio和Vertex AI的 API中上線。

主打性?xún)r(jià)比，思考深度自由調(diào)控

在大模型競(jìng)技場(chǎng)上，經(jīng)過(guò)3000多輪對(duì)戰(zhàn)，Gemini 2.5 Flash獲得了1392分的成績(jī)，與Grok-3、GPT-4.5等模型并列第二。

綜合成績(jī)僅次于自家的Pro版，這樣看來(lái)在競(jìng)技場(chǎng)中戰(zhàn)勝谷歌的只有谷歌了。

并且在編程、復(fù)雜提示和長(zhǎng)文本三個(gè)子榜單中，都和Pro版并列第一。

在大模型競(jìng)技場(chǎng)推出的WebDev榜單里，Gemini 2.5 Flash位列第七，超過(guò)了前一代（2.0）的Pro版本。

此外谷歌還展示了Gemini 2.5 Flash在一系列高難度數(shù)據(jù)集上的表現(xiàn)。

其中包括由1000多名學(xué)者提出的“人類(lèi)最后的考試”，這套測(cè)試集發(fā)布時(shí)沒(méi)有任何一個(gè)模型得分超過(guò)10%，現(xiàn)在Gemini 2.5 Flash的成績(jī)是12.1%。

作為Flash版本，Gemini 2.5 Flash在谷歌自家的模型中，是至今性?xún)r(jià)比最高的版本。

其價(jià)格為0.15/0.6/3.5美元每百萬(wàn)輸入/輸出/推理Token，和o4-mini相比便宜了不少。

實(shí)際上，如果按照輸入輸出3:1的比例計(jì)算，在大模型競(jìng)技場(chǎng)1400分附近，Gemini 2.5 Flash是最便宜的一款模型。

△請(qǐng)注意橫軸數(shù)字非單調(diào)下降

另外對(duì)于價(jià)格相對(duì)較高的推理過(guò)程，Gemini 2.5 Flash支持自由深度控制（甚至完全關(guān)閉），可以幫助預(yù)算不足的用戶(hù)節(jié)約成本。

如果不進(jìn)行設(shè)置，模型也會(huì)根據(jù)prompt自己判斷適宜的思考深度，避免在簡(jiǎn)單的問(wèn)題上過(guò)度思考，從而平衡成本。

o4-mini的競(jìng)爭(zhēng)者？

在HackerNews上，Gemini 2.5 Flash引發(fā)了熱烈的討論。

有人認(rèn)為，谷歌不搞炒作，但實(shí)際上性?xún)r(jià)比非常高，谷歌正在贏得人工智能競(jìng)賽。

也有人覺(jué)得，便宜是便宜，但是模型有時(shí)候會(huì)犯懶，不過(guò)這也在預(yù)料之中。

當(dāng)然，實(shí)際應(yīng)用還是要看具體任務(wù)，不過(guò)可以確定的是，Gemini 2.5 Flash的性?xún)r(jià)比已經(jīng)獲得了部分人的認(rèn)可。

另外由于Gemini的Flash版本和OpenAI的mini類(lèi)似，再加上上線時(shí)間鄰近，Gemini 2.5 Flash也被視為o4-mini的競(jìng)爭(zhēng)者。

不過(guò)從谷歌官方發(fā)布的成績(jī)單上看，Gemini 2.5 Flash在一些難度較高的測(cè)試集中，表現(xiàn)是要稍遜于o4-mini的。

但如果考慮價(jià)格，這樣的差距似乎可以接受，而且實(shí)際任務(wù)當(dāng)中，也不總是需要模型能夠應(yīng)付這些最難的問(wèn)題。

那么，在實(shí)際環(huán)境當(dāng)中，Gemini 2.5 Flash的表現(xiàn)又如何呢？首先看看編程能力。

先安排一下著名的小球測(cè)試變體——一個(gè)大五邊形中包含了三個(gè)缺一邊的小五邊形，之間互不交叉，小球在其中按照物理規(guī)律運(yùn)動(dòng)。

五邊形的部分Gemini 2.5 Flash，正確繪制出來(lái)了，但對(duì)于小球則是完全已讀亂回，經(jīng)過(guò)了反復(fù)調(diào)整之后依然翻車(chē)。

再看o4-mini，運(yùn)行結(jié)果符合提示詞要求，并且代碼更加精簡(jiǎn)，僅128行，而Gemini版本超過(guò)了500行。

這一輪，o4-mini勝。

再看數(shù)據(jù)分析能力。

我們找來(lái)了最近某班次航班的飛行記錄，包含了起飛到降落過(guò)程中各時(shí)間點(diǎn)的位置、高度、速度、航向等信息，一共有1700余個(gè)數(shù)據(jù)點(diǎn)。

給出的任務(wù)則是繪制出高度和速度隨時(shí)間變化的折線圖，并且涉及到了時(shí)區(qū)和計(jì)量單位的換算（原始數(shù)據(jù)中時(shí)間為UTC時(shí)間、高度為英尺、速度為節(jié)，需要換算成北京時(shí)間、高度單位為米、速度單位為公里每小時(shí)）。

雖然我們上傳了數(shù)據(jù)文件，但一開(kāi)始Gemini沒(méi)有選擇外掛，而是把數(shù)據(jù)全都寫(xiě)進(jìn)了Python代碼，導(dǎo)致代碼非常冗長(zhǎng)。

經(jīng)過(guò)提示之后，Gemini對(duì)代碼進(jìn)行了改進(jìn)，得到了正確的圖像。

o4-mini這邊，雖然結(jié)果也對(duì)，但是沒(méi)有考慮清楚坐標(biāo)軸文本的長(zhǎng)度，導(dǎo)致橫軸上所有標(biāo)簽都擠成一團(tuán)。

而且相比之下，Gemini的版本還帶有網(wǎng)格線，能夠更清晰地看出各點(diǎn)對(duì)應(yīng)的大致數(shù)值。

這一輪，Gemini勝。

最后一輪，來(lái)看下兩款模型的多模態(tài)理解能力。

這是英偉達(dá)最近一個(gè)月的股票形勢(shì)圖，我們讓兩款模型分別分析一下最佳的入手時(shí)機(jī)。

它們都從圖中正確發(fā)現(xiàn)了最低點(diǎn)和對(duì)應(yīng)的時(shí)間，至于回答質(zhì)量，還是直接看他們的輸出結(jié)果：

總的來(lái)說(shuō)，如果不考慮價(jià)格，Gemini 2.5 Flash確實(shí)和o4-mini比還有些不盡如人意，但落地中考慮性?xún)r(jià)比，可能綜合競(jìng)爭(zhēng)力就體現(xiàn)出來(lái)了。

責(zé)任編輯：張燕妮來(lái)源：量子位

谷歌模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)