自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

1M長上下文,滿血版Gemini 2.0又一次登上Chatbot Arena榜首

人工智能 新聞
谷歌發(fā)布了 Gemini 2.0 Flash Thinking 推理模型的加強(qiáng)版,并再次登頂 Chatbot Arena 排行榜。

就在國內(nèi)各家大模型廠商趁年底瘋狂卷的時(shí)候,太平洋的另一端也沒閑著。

就在今天,谷歌發(fā)布了 Gemini 2.0 Flash Thinking 推理模型的加強(qiáng)版,并再次登頂 Chatbot Arena 排行榜。

圖片

谷歌 AI 掌門人 Jeff Dean 親發(fā)賀信:「我們?cè)诖藢?shí)驗(yàn)性更新中引入了 1M 長的上下文,以便對(duì)長篇文本(如多篇研究論文或大量數(shù)據(jù)集)進(jìn)行更深入的分析。經(jīng)過不斷迭代,提高可靠性,減少模型思想和最終答案之間的矛盾?!?/span>

圖片

試用鏈接:https://aistudio.google.com/prompts/new_chat

讓我們回憶一下:2024 年 12 月 20 日,橫空出世的 Gemini 2.0 Flash Thinking,曾讓 OpenAI 的十二連發(fā)黯然失色。

Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash,只是其經(jīng)過專門訓(xùn)練,可使用思維(thoughts)來增強(qiáng)其推理能力。發(fā)布之初,這款大模型就登頂了 Chatbot Arena 排行榜。

在技術(shù)上,Gemini 2.0 Flash Thinking 主要有兩點(diǎn)突破:可處理高達(dá) 1M token 的長上下文理解;能在多輪對(duì)話和推理中自我糾錯(cuò)。

Gemini 2.0 Flash Thinking 的一大亮點(diǎn)是會(huì)明確展示其思考過程。比如在 Jeff Dean 當(dāng)時(shí)展示的一個(gè) demo 中,模型解答了一個(gè)物理問題并解釋了自己的推理過程,整個(gè)過程耗時(shí) 1 分多鐘。

而另外一位研究者表示,Gemini-2.0-Flash-Thinking-Exp-01-21 這款最新模型的實(shí)際體驗(yàn)比 Jeff Dean 描述的還要快。

圖片

再看 Gemini 2.0 Flash Thinking 的成績,那也是相當(dāng)亮眼,和前兩代 Gemini 1.5 Pro 002、Gemini 2.0 Flash EXP 相比,Gemini 2.0 Flash Thinking 在 AIME2024(數(shù)學(xué)能力測(cè)試)、GPQA Diamond(科學(xué)能力測(cè)試)和 MMMU(多模態(tài)推理能力)進(jìn)步迅速,特別是數(shù)學(xué)成績,提升了 54%。

圖片

從折線圖來看,即使是比較對(duì)象是一個(gè)月前的自己,也取得了顯著的提升。

圖片

與此同時(shí),在 AGI House 舉辦的活動(dòng)中,Jeff Dean 和研究科學(xué)家 Mostafa Dehghani 透露了更多 Gemini 2.0 Flash Thinking 和 Gemini 2.0 的細(xì)節(jié)。

進(jìn)入 Gemini 2.0 Flash Thinking 的互動(dòng)界面,可以發(fā)現(xiàn)谷歌把 Gemini 系列所有模型都放在了這個(gè)稱為「Google AI Studio」的界面。

從左側(cè)的菜單來看,我們可以在這里一站式地獲得 API 密鑰、創(chuàng)建提示詞、訪問實(shí)時(shí)對(duì)話、開發(fā) APP。平臺(tái)還提供了模型調(diào)優(yōu)、資源庫管理、Drive 訪問集成等進(jìn)階功能,并配備了提示詞庫、API 文檔、開發(fā)者論壇等支持資源。

但這個(gè)界面上的功能就像「集市」一樣分散,藏得比較深的功能入口似乎并不用戶友好,也缺乏介紹模型能力的文檔。Jeff Dean 對(duì)此表示,當(dāng)模型不再是實(shí)驗(yàn)版而是正式發(fā)布時(shí),谷歌將提供完整的技術(shù)報(bào)告,他們現(xiàn)在的主要目標(biāo)是讓用戶試用,再根據(jù)更多反饋改善。

圖片

Gemini 2.0 Flash Thinking 的互動(dòng)界面

此外,谷歌的開發(fā)理念更偏向「全面均衡」?!肝覀儾幌MP驮谀承╊I(lǐng)域特別突出,而其他領(lǐng)域表現(xiàn)欠佳 —— 比如在讀 X 射線時(shí)表現(xiàn)出色,但解讀核磁共振時(shí)卻很糟糕。」Jeff Dean 補(bǔ)充道:「我們的目標(biāo)是打造一個(gè)真正有實(shí)力的通用模型,能夠完成用戶期待的各類任務(wù)。這需要持續(xù)改進(jìn):我們會(huì)收集用戶反饋,了解模型在哪些方面做得好,哪些方面做得不夠好。然后,獲取更多人們關(guān)心的數(shù)據(jù)來提升,確保模型在各個(gè)方向都有進(jìn)步,而不是局限在某個(gè)小范圍內(nèi) —— 雖然在數(shù)學(xué)等特定領(lǐng)域,有時(shí)也會(huì)進(jìn)行專門優(yōu)化?!?/span>

Gemini 2.0 Flash Thinking 主推的亮點(diǎn)是超長的上下文窗口。不過,眾所周知,很多具備長上下文窗口能力的 AI 模型都有個(gè)通?。毫闹闹汀缸兩怠沽耍f的話前言不搭后語,或者就直接「擺爛」,跳過上下文中的大段信息。

Jeff Dean 表示,Gemini 2.0 Flash Thinking 真正能做到在對(duì)話過程中保持連貫的思維,并靈活運(yùn)用之前積累的信息來完成當(dāng)前的任務(wù)。因相比混合在一起的數(shù)千億訓(xùn)練數(shù)據(jù),上下文窗口的信息對(duì)于模型來說非常清晰,因此,上下文窗口的信息對(duì)于 Gemini 2.0 Flash Thinking 來說,就像你讓把一張普通轎車的圖片改成敞篷車一樣,模型能準(zhǔn)確理解每個(gè)像素,然后一步步完成修改。

而從下面這個(gè) demo 來看,Gemini 2.0 理解多模態(tài)的能力已經(jīng)躍升了一個(gè)臺(tái)階。它可以根據(jù)語音提示,實(shí)時(shí)改變這三個(gè)小圓的排布,排成一行放在界面頂部,或者排列成一個(gè)雪人。更夸張的是,Gemini 2.0 對(duì)語音、視覺和動(dòng)作的融會(huì)貫通已經(jīng)達(dá)到了你說想要紫色的圓,它知道要把紅色和藍(lán)色的圓重疊在一起調(diào)色的境地。

想要如此精準(zhǔn)地理解網(wǎng)頁界面的布局和內(nèi)容,需要強(qiáng)大的邊框識(shí)別能力。Jeff Dean 揭秘,這來自 Project Mariner。Project Mariner 是一個(gè)研究性的實(shí)驗(yàn)項(xiàng)目,旨在探索人類將如何與 AI 智能體互動(dòng),第一步就是讓 AI 理解并操作網(wǎng)頁瀏覽器。

Project Mariner 的能力類似于 Claude 的「computer use」,可以實(shí)時(shí)訪問用戶的屏幕,理解瀏覽器中圖像的含義。

圖片

傳送門:https://deepmind.google/technologies/project-mariner/

當(dāng)被問及 Gemini 系列模型是否要向更多模態(tài)進(jìn)發(fā)時(shí),Jeff Dean 的回答是:目前谷歌正在瞄準(zhǔn) 3D 數(shù)據(jù),而且已經(jīng)有了很好的結(jié)果。

看來谷歌還攢了不少存貨,下一個(gè)突破會(huì)在哪個(gè)領(lǐng)域?讓我們拭目以待。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-30 14:10:00

2024-04-03 10:05:00

LLM性能基準(zhǔn)測(cè)試

2011-05-27 09:21:04

2018-05-20 15:32:56

2021-12-13 11:31:38

CodeJetBrains工具

2024-09-05 08:24:09

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2025-02-26 00:16:56

RAGAI服務(wù)

2021-07-26 07:47:36

Cpu上下文進(jìn)程

2012-12-31 10:01:34

SELinuxSELinux安全

2022-09-14 13:13:51

JavaScript上下文

2021-01-19 09:53:10

數(shù)據(jù)泄露漏洞攻擊

2025-02-06 10:21:51

2024-09-06 13:18:58

2013-10-10 09:33:43

2024-02-27 11:47:44

AI數(shù)據(jù)

2022-09-15 08:01:14

繼承基礎(chǔ)設(shè)施基礎(chǔ)服務(wù)

2016-05-09 11:38:30

360

2020-09-15 10:27:13

邊緣計(jì)算

2025-03-18 09:10:00

MCPAI模型上下文協(xié)議
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)