搶跑OpenAI!谷歌Gemini 2.0震撼登場(chǎng):全面轉(zhuǎn)向Agent,多模態(tài)輸入輸出,免費(fèi)隨便玩
Gemini 2.0 Flash是2.0家族第一個(gè)模型,主推原生多模態(tài)輸入輸出+ Agent,速度比 1.5 Pro 快兩倍,關(guān)鍵性能指標(biāo)甚至超過(guò)了 1.5 Pro!支持原生工具調(diào)用、以及實(shí)時(shí)音視頻流輸入等新功能。
谷歌CEO劈柴哥,谷歌DeepMind CEO 諾獎(jiǎng)獲得者Demis Hassabis,谷歌DeepMind CTO罕見(jiàn)齊下場(chǎng)共同撰文為Gemini 2.0 Flash的推出當(dāng)啦啦隊(duì)。
重點(diǎn)功能:
更強(qiáng)性能: 速度更快,多模態(tài)、文本、代碼、視頻、空間理解和推理能力全面提升!新能力比如空間理解,視頻理解等可以通過(guò)Googele AI Studio 的Starter Apps來(lái)體驗(yàn)。
例如1,Gemini 2.0對(duì)空間的理解,利用Spatial Understanding,上傳一張圖片,Gemini快速進(jìn)行圖像中的物體檢測(cè)(2D和3D形式都可以)和標(biāo)注,并生成結(jié)構(gòu)化的數(shù)據(jù)(JSON格式)。它的設(shè)計(jì)直觀,用戶可以通過(guò)簡(jiǎn)單的交互操作快速獲得檢測(cè)結(jié)果。這種工具可能用于機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)準(zhǔn)備、圖像分析或計(jì)算機(jī)視覺(jué)研究等場(chǎng)景。
例如2,Gemini 2.0地圖交互,利用Map explorer,show一下世界上最有意思的大城市,哈哈,看來(lái)來(lái)重慶是真的火??!
全新輸出模態(tài): 支持文本、音頻和圖像的集成響應(yīng),多語(yǔ)言原生音頻輸出,8 種高品質(zhì)語(yǔ)音,多種語(yǔ)言和口音!原生圖像輸出,還能進(jìn)行多輪編輯迭代直到生成滿意的圖像。
原生工具使用: Gemini 2.0 可以直接調(diào)用 Google 搜索、代碼執(zhí)行等工具,還能通過(guò)函數(shù)調(diào)用使用自定義的第三方函數(shù)!
多模態(tài)實(shí)時(shí) API: 支持實(shí)時(shí)音視頻流輸入,還能進(jìn)行語(yǔ)音活動(dòng)檢測(cè),甚至可以集成多個(gè)工具完成復(fù)雜任務(wù)!現(xiàn)在通過(guò)Stream Realtime就可以體驗(yàn)。
例如,把電腦屏幕交給Gemini 2.0接管, 它可以在你與模型實(shí)時(shí)交互的同時(shí)進(jìn)行搜索和編碼。
基于Gemini 2.0的AI“代理”
谷歌正在積極探索 AI“代理”的應(yīng)用,目標(biāo)是打造能夠自主理解、規(guī)劃和執(zhí)行任務(wù)的智能助手。他們已經(jīng)推出了一系列Agent原型(目前僅供測(cè)試人員使用),展示了 AI 代理在不同領(lǐng)域的巨大潛力:
Jules,你的 AI 編程伙伴: 想象一下,你的團(tuán)隊(duì)剛完成了一輪bug排查,一堆 bug 亟待修復(fù)?,F(xiàn)在,你可以把 Python 和 JavaScript 的編碼任務(wù)交給 Jules。它與你的 GitHub 工作流無(wú)縫集成,可以異步處理 bug 修復(fù)和其他耗時(shí)的任務(wù),讓你專注于核心開(kāi)發(fā)工作。Jules 會(huì)創(chuàng)建全面的、多步驟的計(jì)劃來(lái)解決問(wèn)題,高效地修改多個(gè)文件,甚至能準(zhǔn)備 pull requests,直接將修復(fù)提交到 GitHub!更重要的是,Jules 賦予開(kāi)發(fā)者更多自主權(quán):你可以隨時(shí)查看 Jules 創(chuàng)建的計(jì)劃,提供反饋或要求調(diào)整,并輕松審查和合并 Jules 編寫(xiě)的代碼。
Colab 數(shù)據(jù)科學(xué)代理,你的 AI 分析師: 繁瑣的數(shù)據(jù)分析Colab 數(shù)據(jù)科學(xué)代理幫你搞定!只需用自然語(yǔ)言描述你的分析目標(biāo),Colab 就能自動(dòng)生成一個(gè)完整的 notebook,并在幾分鐘內(nèi)提供洞察。所有分析都基于一個(gè)可運(yùn)行的 Colab notebook,保證結(jié)果的可靠性和可重復(fù)性。這將極大地加速你的研究和數(shù)據(jù)分析進(jìn)程。
Project Astra,你的萬(wàn)能 AI 助手: Project Astra 致力于打造一個(gè)通用的 AI 助手,它能夠理解多模態(tài)信息,并在現(xiàn)實(shí)世界中幫助你完成各種任務(wù)。比如,你戴著支持 Astra 的眼鏡或者拿著手機(jī),只需動(dòng)動(dòng)嘴,就能讓 AI 助手幫你安排日程、預(yù)訂餐廳、甚至控制家里的智能設(shè)備!目前,Project Astra 正在 Android 手機(jī)上進(jìn)行測(cè)試,并且即將在原型眼鏡上進(jìn)行測(cè)試。
Project Mariner,重新定義人機(jī)交互: Project Mariner 旨在探索人機(jī)交互的未來(lái),從瀏覽器開(kāi)始。它是一個(gè)實(shí)驗(yàn)性的 Chrome 擴(kuò)展程序,可以讓 AI 代理在你的瀏覽器中執(zhí)行各種任務(wù),例如查找信息、填寫(xiě)表格、甚至與網(wǎng)站進(jìn)行交互。
游戲和其他領(lǐng)域的 AI 代理: DeepMind 在游戲 AI 領(lǐng)域積累了豐富的經(jīng)驗(yàn),現(xiàn)在他們將 Gemini 2.0 應(yīng)用于游戲代理的開(kāi)發(fā)。這些代理可以根據(jù)屏幕上的內(nèi)容理解游戲規(guī)則和挑戰(zhàn),并提供實(shí)時(shí)建議。例如,一個(gè) AI 伙伴陪你一起玩游戲,還能提供專業(yè)的指導(dǎo),游戲體驗(yàn)將提升到一個(gè)全新的層次!更牛的是,這些代理還能連接到 Google 搜索,獲取海量的游戲知識(shí),成為你真正的游戲?qū)<?!目前,他們正與 Supercell 等游戲開(kāi)發(fā)商合作,在“部落沖突”和“卡通農(nóng)場(chǎng)”等游戲中測(cè)試這些代理。
Gemini Advance模式: 谷歌在高級(jí)版中推出一項(xiàng)名為 "深度研究 "的新代理功能,這是一個(gè)研究助手,可以深入研究復(fù)雜的主題,并為你創(chuàng)建帶有相關(guān)來(lái)源鏈接的報(bào)告,感覺(jué)這是直接寫(xiě)科研論文的節(jié)奏。
福利:
Gemini 2.0 Flash 及API免費(fèi)可用! 可以通過(guò) Google AI Studio 和 Vertex AI 中的 Gemini API 使用,基本不要錢(qián),每分鐘最多15個(gè)提問(wèn),每天最多1500個(gè)提問(wèn)。
明年初全面開(kāi)放! 更多模型尺寸和功能,敬請(qǐng)期待!
更多平臺(tái)支持: Gemini 2.0 將陸續(xù)登陸 Android Studio、Chrome DevTools 和 Firebase 等平臺(tái)。
增強(qiáng)代碼輔助功能: Gemini Code Assist 將為 Visual Studio Code、IntelliJ、PyCharm 等 IDE 提供更強(qiáng)大的代碼輔助功能。