大模型廠商密集發(fā)力,谷歌也開“卷”了:Gemini聊天機(jī)器人換上新模型,還能一鍵核查輸出內(nèi)容
Meta、OpenAI等大模型廠商密集發(fā)力之際,谷歌也宣布了一項(xiàng)重磅更新——
即日起,Gemini聊天機(jī)器人將改由Gemini 1.5 Flash驅(qū)動(dòng)。
與之前的版本相比,窗口長(zhǎng)度提高到了4倍,響應(yīng)速度也更快了。
按照谷歌的介紹,新版聊天機(jī)器人背后的1.5 Flash模型,主打的就是輕量化和速度提升。
當(dāng)然模型回復(fù)的質(zhì)量也有提升,上下文窗口也從原先(基于1.0 Pro)的8k提升到了32k。
此外新版聊天機(jī)器人還增加了“事實(shí)核查”功能,可以一鍵檢測(cè)生成的內(nèi)容是否屬實(shí),減輕模型幻覺帶來的不良影響。
有網(wǎng)友感嘆,谷歌今天表現(xiàn)真的很強(qiáng),先是兩款A(yù)plha系模型(拿下了IMO銀牌),接著Gemini也發(fā)布了更新。
還有人開啟了許愿模式,期待Google Scholar學(xué)術(shù)搜索當(dāng)中也能加入AI功能。
更長(zhǎng)上下文窗口,速度也變快了
本次更新的最主要內(nèi)容,就是把免費(fèi)版背后的模型從1.0Pro換成了1.5 Flash。
Gemini 1.5 Flash最早亮相于5月的谷歌I/O開發(fā)者大會(huì)。
通過訓(xùn)練數(shù)據(jù)的“蒸餾”,Gemini 1.5 Flash用更輕量化的體積實(shí)現(xiàn)了較高的生成質(zhì)量。
而且小體積也讓模型的速度更快、效率更高,同時(shí)它還支持多模態(tài)推理。
谷歌介紹,此次更換模型之后,聊天機(jī)器人的速度會(huì)變得更快,同時(shí)舊版8k的上下文窗口,擴(kuò)增到了32k。
不過1.5 Flash自身是支持1百萬的上下文的,這樣的削減幅度屬實(shí)是不小,但畢竟是免費(fèi)免費(fèi)版本。
除了模型的升級(jí),另外一項(xiàng)重要更新就是事實(shí)核查功能了。
在最新的Gemini聊天機(jī)器人當(dāng)中,可以通過該功能一鍵對(duì)輸出的內(nèi)容進(jìn)行檢查。
系統(tǒng)會(huì)針對(duì)輸出中的內(nèi)容在谷歌上進(jìn)行搜索和比對(duì),然后標(biāo)記出相符和不符之處。
有網(wǎng)友評(píng)論說,看到OpenAI上線GPT-4o mini時(shí)就覺得谷歌上新只是個(gè)時(shí)間問題。
的確,不僅是OpenAI和谷歌,Meta、Mistral等在做大模型的廠商最近都是動(dòng)作頻繁。
而關(guān)于模型的表現(xiàn),這位網(wǎng)友也表示自己試過1.0 Pro和1.5 Flash,兩者表現(xiàn)幾乎相同,而1.5 Flash速度更快。
所以,谷歌的這波操作,一定程度上也是適應(yīng)了最近興起的“模型輕量化”趨勢(shì)。
那么,更換了1.5 Flash之后的Gemini聊天機(jī)器人,表現(xiàn)到底怎樣呢?
一鍵檢查模型輸出
量子位對(duì)新版的聊天機(jī)器人進(jìn)行了簡(jiǎn)單測(cè)試。
首先來看一下這次更新的事實(shí)核查功能,第一步是像正常對(duì)話一樣隨便提一個(gè)問題,Gemini也會(huì)正常作答。
可以看到在答案的下方有一個(gè)谷歌的logo,這就是事實(shí)核查功能的按鈕了。
點(diǎn)擊之后系統(tǒng)會(huì)自動(dòng)在谷歌進(jìn)行搜索,然后與自己的輸出內(nèi)容進(jìn)行比對(duì)。
比對(duì)完成后,能夠搜索到信源且相符的內(nèi)容會(huì)被高亮為綠色,如果與搜索結(jié)果存在出入,則會(huì)以淺紅底色標(biāo)注。
點(diǎn)擊標(biāo)注的位置,可以看到Gemini用于對(duì)比的內(nèi)容鏈接。
需要注意的是,這樣的標(biāo)注并不意味著輸出的內(nèi)容是錯(cuò)誤的,比如這里引用的對(duì)比資料中,湯姆克魯斯的母親是Marry Lee South。
由于文本不匹配,導(dǎo)致答案中這一部分被系統(tǒng)標(biāo)注,但實(shí)際上兩個(gè)都是正確答案。
由于這個(gè)事實(shí)核查依靠的是互聯(lián)網(wǎng)搜索,對(duì)比資料的質(zhì)量也是參差不齊,不一定能做到100%的準(zhǔn)確。
比如關(guān)于“林黛玉倒拔垂楊柳”這個(gè)經(jīng)典段子,Gemini明明給出了正確答案,結(jié)果卻被標(biāo)紅了。
再一看引用的對(duì)比信息,屬實(shí)是有些難繃了。
所以這個(gè)功能的作用,主要是提供了一個(gè)更便捷的核查途徑,但具體應(yīng)當(dāng)如何采信,還是要依靠多方查證,以及用戶自己的判斷。
另外,關(guān)于模型本身,我們也測(cè)試了幾個(gè)最近流行的讓大模型屢屢碰壁的難題。
比如數(shù)字比大小,Gemini甚至把兩個(gè)數(shù)字換算成了錢,但一通操作之后最后的結(jié)果是……錯(cuò)的。
自從這個(gè)問題被發(fā)現(xiàn)以來,如果這個(gè)是第二搞笑的答案的話,應(yīng)該沒有哪個(gè)模型敢稱第一了。
還有一開始給了個(gè)錯(cuò)誤答案,后面分析過程中糾正過來的。
但如果用英語提問,還是有希望直接答對(duì)的。
還有數(shù)字母的問題,這個(gè)回答竟然能從中文里數(shù)出字母來……也是把人給整不會(huì)了,完全不在預(yù)判之內(nèi)。
最后,關(guān)于此次更新中提到的速度提升,經(jīng)測(cè)試發(fā)現(xiàn),Gemini 1.5 Flash輸出第一個(gè)字的耗時(shí)要短于Claude 3 Haiku,后續(xù)的速度用肉眼觀察區(qū)別不是很明顯。
以上就是Gemini 1.5 Flash在聊天機(jī)器人中的表現(xiàn),感興趣的讀者可以自行嘗試。
參考鏈接:
[1]https://blog.google/products/gemini/google-gemini-new-features-july-2024/
[2]https://x.com/GeminiApp/status/1816512086232731696