谷歌新旗艦?zāi)P王彲偭耍赓M不限量,網(wǎng)友:我讀論文能力提高10倍
谷歌Gemini 2.0昨晚鯊瘋了!僅過去不到24小時,一大波網(wǎng)友試玩已新鮮出爐~
目前看來,眾人一致認(rèn)為這是谷歌對OpenAI的一次成功反擊,甚至有網(wǎng)友辣評:
迄今為止,OpenAI“雙十二”期間最引人注目的反倒是Gemini 2.0。(doge)
根據(jù)官方跑分結(jié)果,Gemini 2.0在各項基準(zhǔn)測試上的得分和Claude 3.5 Sonnet差不多,但相比Gemini 1.5 Pro,其生成速度提升了2倍。
同時,根據(jù)Deepmind CEO哈薩比斯的說法,Gemini 2.0這次主打「多模態(tài)+Agent」,是一款面向智能體時代的AI模型。
2025年將是AI智能體的時代,Gemini 2.0將是支撐我們基于智能體工作的最新一代模型。
目前,Gemini 2.0 Flash實驗版模型已經(jīng)在網(wǎng)頁端開放,大家都能玩,移動端即將推出。此外,開發(fā)者還可以通過Google AI Studio和Vertex AI的Gemini API使用。
Okk,話不多說,這就康康網(wǎng)友們都在拿它弄啥嘞——
Gemini 2.0主打「多模態(tài)+Agent」,網(wǎng)友已玩瘋
首先,隨著Gemini 2.0 Flash實驗版一同上線的,還有一項名為深度研究(Deep Research)的智能體新功能。
這個功能在Gemini Advanced中推出,僅支持英文版本,有點像最近比較火的科研AI搜索。
按照谷歌CEO皮猜的說法,用戶只需給一個科研主題,它就能幫你整理出一份帶參考來源的完整報告。
能全程語音交流論文的科研助手
你以為這就完了??
當(dāng)然不,來看??(前推特)知名AI博主的玩法。視頻中,博主用Gemini 2.0來閱讀一篇AI論文,和傳統(tǒng)的直接上傳文件然后總結(jié)概括不同,這個智能體直接全程和博主語音交流。(注意聽語音)
只聽雙方打完招呼后,博主將論文屏幕分享給了AI,并詢問對方能看見什么?
而AI也和人類正常對話一樣,回答自己看見的論文標(biāo)題,圖表……
關(guān)鍵是,雙方真的像面對面交談一樣,能夠針對論文的具體內(nèi)容展開一番探討。
這下我信了博主的說法。據(jù)他稱,新功能直接將論文閱讀能力提高了10倍。
除此之外,谷歌還發(fā)布了多款A(yù)I智能體,有早已在I/O大會上亮相的Project Astra,也有適用于瀏覽器的Project Mariner,還有專為開發(fā)者打造的AI編程智能體Jules。
下面一一來看。
通用助手Project Astra回答看見的一切
基于Gemini 2.0 Flash,谷歌10月推出的通用助手Project Astra這次有了很多更新。
概括而言,主要是更好的對話、更低的延遲、更強(qiáng)的記憶力(擁有10分鐘的會話記憶)以及使用新工具(包括谷歌搜索、Lens和地圖)。
根據(jù)Deepmind多模態(tài)研究員透露,過去幾個月他帶著這款助手游歷了歐洲。
從巴黎到羅馬,再到哥本哈根和伊斯坦布爾。它向我解釋了從建筑到歷史、藝術(shù)和美食的一切,并讓我記住了這些經(jīng)歷。我對Astra帶來的可能性感到非常興奮,因為它創(chuàng)造了一種與聊天窗口完全不同的體驗。
只見在他的vlog中,Project Astra幾乎能“看見”并“識別”周圍的一切。
幫他從電子郵件中找到公寓密碼、告訴洗衣注意事項、搜集打卡地信息……
而且,Project Astra不僅能裝在手機(jī)里,還可以跑進(jìn)智能眼鏡里,解鎖更多需要解放雙手的場景(比如騎行)。
不過需要提醒,目前該智能體尚未全面推出,僅限受信任的測試人員使用。
瀏覽器智能體Project Mariner
此外,基于Gemini 2.0,谷歌這次還發(fā)布了一個類似Anthropic「Computer Use」的智能體——Project Mariner。
簡單來說,用戶只需一句簡單指令,它就能自動在瀏覽器中完成操作,包括處理像素和文本、代碼、圖像和表單等。
而且使用時會在右邊展開側(cè)邊欄,實時顯示AI的思考及操作過程。(用戶也能繼續(xù)輸入指令)
不過目前該智能體尚未全面推出,僅限受信任的測試人員使用。
編程智能體Jules
最后,基于Gemini 2.0 Flash,谷歌這次為開發(fā)者專門構(gòu)建了一個代碼智能體Jules。
具體而言,Jules以異步方式工作,并與用戶的GitHub工作流集成,在專注于實際想要構(gòu)建的內(nèi)容時,它負(fù)責(zé)處理Bug修復(fù)和其他耗時的任務(wù)。
據(jù)官方介紹,Jules在SWE-bench Verified測試中達(dá)到了51.8%的通過率,而Claude 3.5是49%。
不過,目前Jules僅開放給一小部分可信賴的測試者,并計劃在2025年初向其他有興趣的開發(fā)者提供。
總之,目前發(fā)布的上述3個智能體均未開放給大眾,要想體驗Gemini 2.0的能力,目前更多還是在多模態(tài)上。
比如用它來生成圖像。
更關(guān)鍵的是,一次生成不滿意,還能繼續(xù)編輯調(diào)整。(從一只蝴蝶到憑空加一只)
進(jìn)一步深扒發(fā)現(xiàn),Gemini 2.0在圖像生成時竟然具備COT思維能力。
在第一次生成后,它很快就發(fā)現(xiàn)了自己的錯誤,并一步步自動調(diào)整,最終生成了符合指令的正確圖像。
受此啟發(fā),該Deepmind員工還創(chuàng)作了繪本故事書,真·圖文并茂。
當(dāng)然,網(wǎng)友們還解鎖了更多玩法,篇幅受限在此不再展開……
BTW,截至目前,Gemini 2.0 Flash在幻覺基準(zhǔn)測試上的跑分也出來了(只有1.3%)。
另外,谷歌AI Studio負(fù)責(zé)人還出來預(yù)告了一把,好的都在后頭。
目前2.0版本已提供給一些開發(fā)者內(nèi)測,谷歌正在迅速將其集成在Gemini和搜索等產(chǎn)品線中。正式產(chǎn)品將于1月份全面上市,屆時將推出更多型號。
所以是準(zhǔn)備藏著和OpenAI打擂臺嗎?(doge)
體驗地址:https://aistudio.google.com/prompts/new_chat。
參考鏈接:
[1]https://x.com/omarsar0/status/1866985193179058638。
[2]https://x.com/simonw/status/1866942603020910866。
[3]https://x.com/Francis_YAO_/status/1866958948173304099。
[4]https://x.com/m__dehghani/status/1866937033052262651。