自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="xs93a"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用

發(fā)布于 2024-4-10 13:18

瀏覽

0收藏

谷歌最強大模型Gemini 1.5 Pro今天起，“全面”對外開放。

目前完全免費，開發(fā)者可以通過API調(diào)用的方式使用，普通玩家也可以在谷歌AI Studio中直接體驗。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

（Ps. 發(fā)布這則消息的谷歌工程師Logan Kilpatrick正是原來OpenAI開發(fā)者關(guān)系的負(fù)責(zé)人，剛剛跳槽到谷歌。）

最讓人期待的是，Gemini 1.5 Pro API首次增加了音頻理解功能。

無論是財報電話會、電視節(jié)目還是大神演講，不需要我們再提供字幕文檔它就可以直接解讀了。

如下圖所示：

上傳Jeff Dean長約117000+token的演講錄音，Gemini 1.5 Pro在30.8s內(nèi)就完成了解析。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

而由于Gemini 1.5 Pro100萬的上下文窗口這次也直接對外開放，因此它可以處理的最長音頻約為11小時，最長視頻則為1小時，相當(dāng)夠用。

我們也趕緊實測了一把，結(jié)果是真香。

Gemini 1.5 Pro開放API了

谷歌官方給這次免費開放的Gemini 1.5 Pro版本定義為“公開預(yù)覽版”。

它主要面向開發(fā)者，可在谷歌AI Studio中獲得API密鑰：

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

目前最引人注目的音頻理解功能還沒添加到API中，但據(jù)說很快就會補上。

問題不大，我們可以先在Google AI Studio中直接體驗：

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

在實測中，我們上傳了比爾蓋茨1995年做客Late Show節(jié)目的一段音頻，時長1分鐘。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

我們沒有提示這段音頻的任何背景信息，Gemini 1.5 Pro直接就聽出來了是誰。

并在10s左右精準(zhǔn)整理出了全對話的精華部分，一點“正確的廢話”都沒有：

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

表現(xiàn)令人折服。

接下來，來個更具挑戰(zhàn)的，Andrej Karpathy1小時長的大模型科普教程。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

我們提取音頻文件，足足10萬多個token（這種在UI里直接顯示當(dāng)前消耗token數(shù)量的方法也廣受好評）。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

Gemini 1.5 Pro最終在53s內(nèi)按要求給出了10個亮點分析：

可以說一分鐘就讓我們對1小時的演講內(nèi)容有了整體認(rèn)知，再也不用費勁扒字幕文件了。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

繼續(xù)回到API本身。

除了音頻理解，為了讓開發(fā)者更好地控制模型輸出，Gemini 1.5 Pro還提供了另外3項新功能/改進(jìn)：

首先是系統(tǒng)指令。

我們可以自定義一些特殊用例，包括它們的角色、輸出格式/風(fēng)格/語氣、目標(biāo)和規(guī)則等等。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

設(shè)置完成后，這個指令就會應(yīng)用于接下來的整個請求。

示例如下：

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

其次，JSON模式。

也就是可以指示模型僅輸出JSON對象了，非常方便我們從文本或圖像中提取結(jié)構(gòu)化數(shù)據(jù)。

第三，函數(shù)調(diào)用上也有改進(jìn)。

為了提高可靠性，Gemini 1.5 Pro也可以選擇不同模式來限制模型的輸出了。

可以是文本模式，將生成文本作為輸出；也可以是函數(shù)調(diào)用模式，或者干脆只輸出函數(shù)本身（不帶任何參數(shù)或其他信息）。

最后，還沒完，從今天起，開發(fā)者還能通過該API調(diào)用谷歌的下一代文本嵌入模型：

text-embedding-004（又名“Gecko”）。

該模型在MTEB基準(zhǔn)上實現(xiàn)了非常強大的檢索性能，優(yōu)于可比維度的所有對手。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

兩個月前誕生的谷歌最強大模型

Gemini 1.5 Pro于2月15日發(fā)布，距今還不到兩個月。

它是Gemini Pro的升級版，多模態(tài)多語言，最大的亮點無疑是上下文窗口長度：

從128k到最多100萬。

100萬個token相當(dāng)于可處理70萬個單詞或約3萬行代碼，折合成音頻就是約11小時，視頻約1小時。

無疑是很大的一個量級了（現(xiàn)在則完全在API中開放）。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

當(dāng)時官方的演示包括用它搜索阿波羅11號登月的電視轉(zhuǎn)播信息，一共402頁文字記錄。

模型的響應(yīng)時間大約在20s到1分鐘。稍微有點慢，但谷歌承諾會優(yōu)化延遲時間。

而Gemini 1.5 Pro發(fā)布之后，網(wǎng)友也很快分享了一些還不錯的內(nèi)測結(jié)果，包括：

鑒別Sora視頻是否AI生成，給出關(guān)鍵證據(jù)；

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

在一場14分鐘的NBA扣籃視頻中，判斷出哪個扣籃得分最高，并給出其中扣籃細(xì)節(jié)；

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

還有分析比較《星際穿越》和《星際探索》兩個完整的電影腳本，合起來接近10萬token，結(jié)果三十幾秒內(nèi)就給出了完整詳盡的報告。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

可以說，這次谷歌整體是沒有讓大伙失望的。

最高能的是，它還能看錄像改BUG：

有網(wǎng)友在編寫一個網(wǎng)頁的代碼時故意留了3個bug，并分別錄制了3個bug視頻，外加代碼庫打包成文件一同丟給Gemini 1.5 Pro，結(jié)果全部分分鐘給出正確代碼。

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

這位網(wǎng)友當(dāng)時就表示：這“小伙子”前途不可限量啊。

而在今天，隨著Gemini 1.5 Pro API的“全面”開放，大伙可以更進(jìn)一步地感受其厲害了。

咳咳，就是目前速率限制還有點高：

每分鐘請求量為5次，每分鐘token為1000萬個，每日請求量為2000個～

谷歌最強大模型免費開放了！長音頻理解功能獨一份，100萬上下文敞開用-AI.x社區(qū)

友情鏈接：???https://aistudio.google.com/app/prompts/new_chat??

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/R7zSua2C0c1oKGmkQr9pKA??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

用短輸入模擬長樣本，高效拓展LLM上下文窗口，北大聯(lián)合MSRA提出PoSE

kcoufee ? 2717瀏覽 ? 0回復(fù)
蘋果發(fā)超強上下文理解模型，聰明版Siri馬上就來

duhorse ? 2426瀏覽 ? 0回復(fù)
首個開源世界模型！百萬級上下文，長視頻理解吊打GPT-4，UC伯克利華人一作

duhorse ? 2937瀏覽 ? 0回復(fù)
LLM超長上下文查詢-性能評估實戰(zhàn)

ermulong ? 2713瀏覽 ? 0回復(fù)
直接擴展到無限長，谷歌Infini-Transformer終結(jié)上下文長度之爭

輕薄滴假象 ? 2260瀏覽 ? 0回復(fù)
讓大模型不再「巨無霸」，這是一份最新的大模型參數(shù)高效微調(diào)綜述

輕薄滴假象 ? 2256瀏覽 ? 0回復(fù)
LLM上下文窗口突破200萬！無需架構(gòu)變化+復(fù)雜微調(diào)，輕松擴展8倍

duhorse ? 3165瀏覽 ? 0回復(fù)
LLM超長上下文查詢-性能評估實戰(zhàn)

ermulong ? 2532瀏覽 ? 0回復(fù)
長上下文能力只是吹牛？最強GPT-4o正確率僅55.8%，開源模型不如瞎蒙

duhorse ? 2749瀏覽 ? 0回復(fù)
長上下文 還是 RAG？ Google:我全都要！

探索AGI ? 2133瀏覽 ? 0回復(fù)
長上下文語言模型評估體系探析

Baihai_IDP ? 2368瀏覽 ? 0回復(fù)
大模型超長窗口上下文與檢索增強生成——RAG

AI探索時代 ? 2286瀏覽 ? 0回復(fù)
Claude的MCP（模型上下文協(xié)議）簡介

Halo咯咯 ? 4503瀏覽 ? 0回復(fù)
AI 編程必備：用 Cline 的四個命令實現(xiàn)無縫上下文管理

凝固的雨_1 ? 5594瀏覽 ? 0回復(fù)
谷歌提出Titans：突破算力限制，擴展上下文

Aceryt ? 1595瀏覽 ? 0回復(fù)
如何使用模型上下文協(xié)議構(gòu)建自定義工具

51CTO內(nèi)容精選 ? 1968瀏覽 ? 0回復(fù)
基于多模態(tài)大語言模型的上下文目標(biāo)檢測

AIRoobt ? 1843瀏覽 ? 0回復(fù)
Llama 4 凌晨震撼發(fā)布：Meta開源最強MoE多模態(tài)模型，1000萬上下文碾壓行業(yè)！

AI博物院 ? 1180瀏覽 ? 0回復(fù)
剛剛，OpenAI發(fā)布GPT-4.1，性能暴漲、100萬上下文

Aceryt ? 609瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單

下一篇： “梗王”大模型，靠講笑話登上CVPR | 中山大學(xué)

社區(qū)精華內(nèi)容

目錄