1M長上下文,滿血版Gemini 2.0又一次登上Chatbot Arena榜首
就在國內(nèi)各家大模型廠商趁年底瘋狂卷的時(shí)候,太平洋的另一端也沒閑著。
就在今天,谷歌發(fā)布了 Gemini 2.0 Flash Thinking 推理模型的加強(qiáng)版,并再次登頂 Chatbot Arena 排行榜。
谷歌 AI 掌門人 Jeff Dean 親發(fā)賀信:「我們?cè)诖藢?shí)驗(yàn)性更新中引入了 1M 長的上下文,以便對(duì)長篇文本(如多篇研究論文或大量數(shù)據(jù)集)進(jìn)行更深入的分析。經(jīng)過不斷迭代,提高可靠性,減少模型思想和最終答案之間的矛盾?!?/span>
試用鏈接:https://aistudio.google.com/prompts/new_chat
讓我們回憶一下:2024 年 12 月 20 日,橫空出世的 Gemini 2.0 Flash Thinking,曾讓 OpenAI 的十二連發(fā)黯然失色。
Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash,只是其經(jīng)過專門訓(xùn)練,可使用思維(thoughts)來增強(qiáng)其推理能力。發(fā)布之初,這款大模型就登頂了 Chatbot Arena 排行榜。
在技術(shù)上,Gemini 2.0 Flash Thinking 主要有兩點(diǎn)突破:可處理高達(dá) 1M token 的長上下文理解;能在多輪對(duì)話和推理中自我糾錯(cuò)。
Gemini 2.0 Flash Thinking 的一大亮點(diǎn)是會(huì)明確展示其思考過程。比如在 Jeff Dean 當(dāng)時(shí)展示的一個(gè) demo 中,模型解答了一個(gè)物理問題并解釋了自己的推理過程,整個(gè)過程耗時(shí) 1 分多鐘。
而另外一位研究者表示,Gemini-2.0-Flash-Thinking-Exp-01-21 這款最新模型的實(shí)際體驗(yàn)比 Jeff Dean 描述的還要快。
再看 Gemini 2.0 Flash Thinking 的成績,那也是相當(dāng)亮眼,和前兩代 Gemini 1.5 Pro 002、Gemini 2.0 Flash EXP 相比,Gemini 2.0 Flash Thinking 在 AIME2024(數(shù)學(xué)能力測(cè)試)、GPQA Diamond(科學(xué)能力測(cè)試)和 MMMU(多模態(tài)推理能力)進(jìn)步迅速,特別是數(shù)學(xué)成績,提升了 54%。
從折線圖來看,即使是比較對(duì)象是一個(gè)月前的自己,也取得了顯著的提升。
與此同時(shí),在 AGI House 舉辦的活動(dòng)中,Jeff Dean 和研究科學(xué)家 Mostafa Dehghani 透露了更多 Gemini 2.0 Flash Thinking 和 Gemini 2.0 的細(xì)節(jié)。
進(jìn)入 Gemini 2.0 Flash Thinking 的互動(dòng)界面,可以發(fā)現(xiàn)谷歌把 Gemini 系列所有模型都放在了這個(gè)稱為「Google AI Studio」的界面。
從左側(cè)的菜單來看,我們可以在這里一站式地獲得 API 密鑰、創(chuàng)建提示詞、訪問實(shí)時(shí)對(duì)話、開發(fā) APP。平臺(tái)還提供了模型調(diào)優(yōu)、資源庫管理、Drive 訪問集成等進(jìn)階功能,并配備了提示詞庫、API 文檔、開發(fā)者論壇等支持資源。
但這個(gè)界面上的功能就像「集市」一樣分散,藏得比較深的功能入口似乎并不用戶友好,也缺乏介紹模型能力的文檔。Jeff Dean 對(duì)此表示,當(dāng)模型不再是實(shí)驗(yàn)版而是正式發(fā)布時(shí),谷歌將提供完整的技術(shù)報(bào)告,他們現(xiàn)在的主要目標(biāo)是讓用戶試用,再根據(jù)更多反饋改善。
Gemini 2.0 Flash Thinking 的互動(dòng)界面
此外,谷歌的開發(fā)理念更偏向「全面均衡」?!肝覀儾幌MP驮谀承╊I(lǐng)域特別突出,而其他領(lǐng)域表現(xiàn)欠佳 —— 比如在讀 X 射線時(shí)表現(xiàn)出色,但解讀核磁共振時(shí)卻很糟糕。」Jeff Dean 補(bǔ)充道:「我們的目標(biāo)是打造一個(gè)真正有實(shí)力的通用模型,能夠完成用戶期待的各類任務(wù)。這需要持續(xù)改進(jìn):我們會(huì)收集用戶反饋,了解模型在哪些方面做得好,哪些方面做得不夠好。然后,獲取更多人們關(guān)心的數(shù)據(jù)來提升,確保模型在各個(gè)方向都有進(jìn)步,而不是局限在某個(gè)小范圍內(nèi) —— 雖然在數(shù)學(xué)等特定領(lǐng)域,有時(shí)也會(huì)進(jìn)行專門優(yōu)化?!?/span>
Gemini 2.0 Flash Thinking 主推的亮點(diǎn)是超長的上下文窗口。不過,眾所周知,很多具備長上下文窗口能力的 AI 模型都有個(gè)通?。毫闹闹汀缸兩怠沽耍f的話前言不搭后語,或者就直接「擺爛」,跳過上下文中的大段信息。
Jeff Dean 表示,Gemini 2.0 Flash Thinking 真正能做到在對(duì)話過程中保持連貫的思維,并靈活運(yùn)用之前積累的信息來完成當(dāng)前的任務(wù)。因相比混合在一起的數(shù)千億訓(xùn)練數(shù)據(jù),上下文窗口的信息對(duì)于模型來說非常清晰,因此,上下文窗口的信息對(duì)于 Gemini 2.0 Flash Thinking 來說,就像你讓把一張普通轎車的圖片改成敞篷車一樣,模型能準(zhǔn)確理解每個(gè)像素,然后一步步完成修改。
而從下面這個(gè) demo 來看,Gemini 2.0 理解多模態(tài)的能力已經(jīng)躍升了一個(gè)臺(tái)階。它可以根據(jù)語音提示,實(shí)時(shí)改變這三個(gè)小圓的排布,排成一行放在界面頂部,或者排列成一個(gè)雪人。更夸張的是,Gemini 2.0 對(duì)語音、視覺和動(dòng)作的融會(huì)貫通已經(jīng)達(dá)到了你說想要紫色的圓,它知道要把紅色和藍(lán)色的圓重疊在一起調(diào)色的境地。
想要如此精準(zhǔn)地理解網(wǎng)頁界面的布局和內(nèi)容,需要強(qiáng)大的邊框識(shí)別能力。Jeff Dean 揭秘,這來自 Project Mariner。Project Mariner 是一個(gè)研究性的實(shí)驗(yàn)項(xiàng)目,旨在探索人類將如何與 AI 智能體互動(dòng),第一步就是讓 AI 理解并操作網(wǎng)頁瀏覽器。
Project Mariner 的能力類似于 Claude 的「computer use」,可以實(shí)時(shí)訪問用戶的屏幕,理解瀏覽器中圖像的含義。
傳送門:https://deepmind.google/technologies/project-mariner/
當(dāng)被問及 Gemini 系列模型是否要向更多模態(tài)進(jìn)發(fā)時(shí),Jeff Dean 的回答是:目前谷歌正在瞄準(zhǔn) 3D 數(shù)據(jù),而且已經(jīng)有了很好的結(jié)果。
看來谷歌還攢了不少存貨,下一個(gè)突破會(huì)在哪個(gè)領(lǐng)域?讓我們拭目以待。