谷歌重磅發(fā)布Gemini 1.5 Pro:能自動(dòng)寫影評(píng),理解視頻!
4月10日凌晨,谷歌在官網(wǎng)正式發(fā)布了Gemini 1.5 Pro,現(xiàn)在可在180多個(gè)國(guó)家/地區(qū)使用。
除了能生成創(chuàng)意文本、代碼之外,Gemini 1.5 Pro最大的特色是能根據(jù)用戶輸入的文本提示,理解、總結(jié)上傳的視頻、音頻內(nèi)容進(jìn)行深度總結(jié),并且支持100萬(wàn)tokens上下文。
目前,可以在Google AI Studio開發(fā)平臺(tái)中免費(fèi)試用Gemini 1.5 Pro,支持中文進(jìn)行提示。
此外,谷歌還對(duì)Gemini API進(jìn)行了性能優(yōu)化,包括系統(tǒng)指令、JSON模式以及函數(shù)調(diào)用優(yōu)化,可顯著提升模型的穩(wěn)定性和輸出能力。
視頻理解展示
「AIGC開放社區(qū)」通過(guò)Google AI Studio開發(fā)平臺(tái)第一時(shí)間體驗(yàn)了一下最新的Gemini 1.5 Pro的多模態(tài)理解能力。使用方法非常簡(jiǎn)單便捷,以下是教程示例。
1)登錄https://aistudio.google.com/app/prompts/new_chat然后選擇模型Gemini 1.5 Pro,以及上方的Video功能。
2)點(diǎn)擊Video后,選擇Upload上傳視頻。
3)由于模型對(duì)上傳視頻的解析速度過(guò)慢,所以,這里直接使用了谷歌內(nèi)置的視頻示例。需要注意的是,上傳視頻不要超過(guò)100萬(wàn)tokens。
4)我們使用內(nèi)置視頻示例,然后用中文提問(wèn):“介紹一下這部影片講述了哪些內(nèi)容。”
5)Gemini 1.5 Pro正在解析,通常只需要幾十秒就能完成。
結(jié)果已經(jīng)出來(lái)了,這是一部由BusterKeaton 于 1924 年主演并導(dǎo)演的電影《福爾摩斯二世》。
6)我們繼續(xù)發(fā)問(wèn),“你能用這個(gè)視頻寫一段600字的影評(píng)嗎?”大概幾十秒后,Gemini 1.5 Pro便生成了影評(píng)。
雖然生成的內(nèi)容無(wú)法與頂級(jí)影評(píng)人的作品媲美。但整體的文章架構(gòu)、敘述方法以及詞匯的準(zhǔn)確度是超過(guò)很多小白、中級(jí)影評(píng)人的水平。只需要在這個(gè)基礎(chǔ)之上進(jìn)行稍加修改,就是一篇不錯(cuò)的內(nèi)容。
值得一提的是,用戶可以一次性上傳多個(gè)視頻一起解讀,這對(duì)于視頻媒體行業(yè)來(lái)說(shuō)很有幫助,可以快速理解長(zhǎng)視頻內(nèi)容節(jié)省時(shí)間。
音頻理解展示
我們?cè)僭囋囈纛l,基本操作與視頻差不多。這里我們上傳一份英文閱讀ESL Podcast的課程。
然后上傳MP3格式文件
2)音頻比視頻解析快了很多很多,這里我們上傳的音頻有大約12萬(wàn)tokens。
3)開始發(fā)問(wèn),“總結(jié)一下這個(gè)音頻的內(nèi)容?!?/p>
4)Gemini 1.5 Pro已經(jīng)精準(zhǔn)解讀出來(lái)了,這個(gè)音頻是 ESL Podcast 系列課程“Jeff 的一天”的第一課,旨在幫助學(xué)習(xí)者掌握日常英語(yǔ)詞匯。
比較意外的是,Gemini 1.5 Pro還把整個(gè)可成的結(jié)構(gòu)、故事內(nèi)容和學(xué)習(xí)目標(biāo)全部都解讀了出來(lái),看來(lái)Gemini 1.5 Pro還是更懂英文數(shù)據(jù)內(nèi)容。
Gemini 1.5 Pro的音頻理解,同樣支持多個(gè)文件一起解讀。
Gemini API改進(jìn)
為了幫助開發(fā)人員更好地控制Gemini模型,谷歌對(duì)API進(jìn)行了三個(gè)優(yōu)化。
系統(tǒng)指令:目前可以在Google AI Studio 和 Gemini API 中使用系統(tǒng)指令功能,可指導(dǎo)模型的響應(yīng)輸出。能讓用戶根據(jù)其特定需求和用例控制模型的行為。
在設(shè)置系統(tǒng)指令時(shí),用戶需要為模型提供額外的上下文來(lái)了解任務(wù)、提供自定義程度更高的響應(yīng),并在用戶與模型的整個(gè)互動(dòng)過(guò)程中遵循特定準(zhǔn)則。
而開發(fā)者通過(guò)系統(tǒng)指令能定義角色、格式、目標(biāo)和規(guī)則,以引導(dǎo)模型在特定用例中的各種行為。
JSON模式:現(xiàn)在Gemini API 提供了一個(gè)配置參數(shù),用于請(qǐng)求 JSON 格式的響應(yīng)。可以幫助開發(fā)者從文本或圖像中提取結(jié)構(gòu)化數(shù)據(jù)。
函數(shù)調(diào)用優(yōu)化:開發(fā)者可以使用自定義函數(shù)并將其提供給AI模型,但模型不會(huì)直接調(diào)用這些函數(shù),而是生成指定函數(shù)名稱和建議的參數(shù)的結(jié)構(gòu)化數(shù)據(jù)輸出。
該輸出支持調(diào)用外部 API,然后生成的 API 輸出可以重新合并到模型中,從而幫助開發(fā)者實(shí)現(xiàn)更全面的查詢響應(yīng)。
目前,Gemini 1.5 Pro已經(jīng)全面開放使用了,有興趣的小伙伴趕緊去試試吧。
本文轉(zhuǎn)自AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
