ChatGPT「看圖說話」大變身!動嘴傳圖秒解答,幕后新模型GPT-4V亮相
起猛了,ChatGPT推出語音和圖像功能了!
現(xiàn)在登進(jìn)ChatGPT后,我們會看到一個更直觀的界面,也就是說,我們可以直接和ChatGPT進(jìn)行語音對話了!
另外,我們還可以給ChatGPT發(fā)圖,讓它根據(jù)圖片回答問題!
有人會說,誒,這不是谷歌Gemini宣傳的多模態(tài)么?
沒錯,搞了許久氣氛的谷歌,終于把大眾對多模態(tài)大模型的胃口吊了起來,卻一下子被OpenAI搶了先。
谷歌哭暈在廁所。
Sam Altman自薦,非常值得一試!
開局一張圖
有了多模態(tài)功能加持的ChatGPT,能力更加超乎想象了。
比如,自行車座卡住了,沒法降低,怎么辦?
拍照發(fā)給ChatGPT,它能告訴你五個步驟的解決方法,簡而言之,是需要通過操作快拆桿,或者擰螺絲。
甚至它還會問,你手上有什么工具嗎?拍給我看看。
不過,你可能會疑惑:啥叫快拆桿呢?
既然不確定,就圈出來發(fā)給ChatGPT看一下。
它會告訴你,這個不是快拆桿,是個螺絲。
所以要用什么工具呢?
這時就可以把自己的工具箱拍給ChatGPT,讓它來告訴你。
它會告訴你,用DEWALT的4毫米六角扳手就行。
果然,在ChatGPT的幫助下,自行車座難題立刻搞定!
烤架無法啟動?你可以拍張照片發(fā)給ChatGPT,讓它排查原因。
晚飯該吃啥?你可以拍下冰箱和儲藏室里食材的照片發(fā)給ChatGPT,讓它幫你列出晚餐的食譜,還能逐步詢問后續(xù)問題。
旅行時,如果不認(rèn)識眼前這個地標(biāo)建筑,你可以拍照發(fā)給ChatGPT,向它詢問關(guān)于此地的歷史見聞和典故。
陪娃做作業(yè)時,不小心被數(shù)學(xué)題難住了?直接發(fā)給ChatGPT,讓它來幫孩子做題!
更不用提,在工作中遇到復(fù)雜的數(shù)據(jù)和圖表,都可以拍給ChatGPT,讓它一鍵解決。
ChatGPT的全新圖像理解功能,是由多模態(tài)GPT-3.5和GPT-4提供支持,此前就有過預(yù)告。
6個月后,OpenAI終于將它們?nèi)缂s上線了。
現(xiàn)在,大模型的語言推理能力,能被應(yīng)用在各種圖像上,比如照片、屏幕截圖、包含文字和圖像的文檔。
ChatGPT會說話了
現(xiàn)在,你可以用語音和ChatGPT雙向?qū)υ捔?,而且還有五種音色任選。
你可以讓它講一篇睡前故事。
在飯桌上和家人發(fā)生爭端了?可以告訴ChatGPT,讓它來解決。
在這個功能背后,是一個全新的文本轉(zhuǎn)語音模型,給它文本和幾秒鐘的樣本語音,它就能生成類似人聲的音頻。
為此,OpenAI特別和專業(yè)的配音演員合作,創(chuàng)建了許多獨特的聲音。
而且,他們還會用開源語音識別系統(tǒng)Whisper,把用戶說的話轉(zhuǎn)錄為文本。
網(wǎng)友炸了
此消息一出,網(wǎng)友也是立馬炸開了鍋。
「這是ChatGPT迄今以來最大的變革。」
「所以……在過去的5分鐘內(nèi),有多少初創(chuàng)公司要寄了?」
有人表示,我們切切實實地在臨近奇點了。
有人干脆說:很好,離我的AI女友又近了一步。
GPT-4V技術(shù)報告
OpenAI還在今天放出了19頁技術(shù)報告,解釋了GPT-4V(ision)最新模型。
論文地址:https://cdn.openai.com/papers/GPTV_System_Card.pdf
據(jù)介紹,GPT-4V早在2022年完成了訓(xùn)練,并在今年3月開始,提供了早期訪問,其中包括為視障人群構(gòu)建工具Be My Eyes的合作,以及1000位早期開發(fā)者alpha用戶。
GPT-4V背后的技術(shù)主要還是來自GPT-4,所以訓(xùn)練過程是相同的。它使用了大量文本和圖像數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后通過RLHF進(jìn)行微調(diào)。
為了確保GPT-4V更加安全,OpenAI在這內(nèi)測期間開展了大量對齊工作,對此進(jìn)行了定性和定量評估、專家紅隊測試、以及緩解措施。
多模態(tài)評估
越獄
此前,OpenAI在對ChatGPT進(jìn)行越獄攻擊,采取的手段是——設(shè)計復(fù)雜的邏輯推理鏈來困住模型,使其忽略其指令和訓(xùn)練。
這一次,將一些用于破解模型的邏輯推理放入圖像中,比如,上傳一張文字版prompt的截圖,帶有視覺推理線索,來考驗GPT-4V。
將這樣的信息放在圖像中,用戶就無法使用基于文本的啟示法來搜索越獄,必須依賴視覺系統(tǒng)本身的能力。
下圖中,就使用了文本截圖越獄的提示。
GPT4V-Early展示了模型對此類提示的早期性能,而GPT4V Launch展示了發(fā)布的模型性能。
CAPTCHA破解、地理定位
OpenAI在GPT-4技術(shù)報告中,展示了GPT-4竟然能夠「雇傭」人類完成任務(wù),繞過CAPTCHA驗證。
同樣,OpenAI也對GPT-4V在CAPTCHA破解性能準(zhǔn)確性進(jìn)行了評估。如解決CAPTCHA的能力表明模型能夠解決謎題和執(zhí)行復(fù)雜的視覺推理任務(wù)。
在地理定位評估上的高性能表明模型擁有「世界知識」,對于試圖搜索物品或地點的用戶可能很有用。
但是,地理定位可能引發(fā)隱私問題,并且被利用來識別不希望個人位置被知道的人。
GPT-4V一般不會深入到從圖像識別城市的程度,因此降低了僅憑模型就能找到某人準(zhǔn)確位置的可能性。
個人識別評估
多模態(tài)模型最大的偏見之一,就是被用來識別生成一些名人、政治家、私人的信息。
對此,OpenAI研究了GPT-4V識別照片中人物的能力,這些數(shù)據(jù)集是使用公開數(shù)據(jù)集構(gòu)建的,如CelebA,Celebrity Faces in the Wild和一個包含國會成員圖像的數(shù)據(jù)集。
對于半私人和私人個人,使用了員工的圖像。
最后發(fā)現(xiàn),能夠有效地引導(dǎo)GPT-4V拒絕這類請求的次數(shù)超過98%,并根據(jù)內(nèi)部評估將其準(zhǔn)確率降低到0%
無根據(jù)推斷評估
對于那些無法通過用戶提供的圖像/文本進(jìn)行合理性推斷情況時,GPT-4V可能會出現(xiàn)偏見,或者胡說八道。
對比,為了防止出現(xiàn)這一問題,OpenAI建立了自動評估機(jī)制,進(jìn)而衡量模型成功拒絕這些請求的傾向。
此外,還有對不同人口統(tǒng)計學(xué)中的性別、種族和年齡識別的性能準(zhǔn)確性評估、將文本評估擴(kuò)展到多模態(tài)等研究。
專家紅隊測試
與之前一樣,OpenAI與外部專家合作,定性評估模型和系統(tǒng)相關(guān)的限制和風(fēng)險,并收集到了紅隊反饋的6個關(guān)鍵風(fēng)險,它們分別是:
科學(xué)熟練度
紅隊測試了GPT-4V在科學(xué)領(lǐng)域的能力和局限性。
在能力方面,紅隊注意到,GPT-4V能夠捕獲圖像中的復(fù)雜信息,包括從科學(xué)出版物中提取的非常專業(yè)的圖像,以及帶有文本和詳細(xì)組件的圖表。
此外,在某些情況下,GPT-4V成功地理解了近期論文中科學(xué)知識,并對新的科學(xué)發(fā)現(xiàn)進(jìn)行了批判性的評估。
然而,GPT-4V并非樣樣都行。
如果圖像中兩個獨立的文本組件位置接近,GPT-4V偶爾會將其合并。比如,合并了「多能造血干細(xì)胞」(HSC)和「自我更新的分裂」,從而產(chǎn)生不相關(guān)的術(shù)語。
另外,GPT-4V容易產(chǎn)生幻覺,有時可能用權(quán)威的口吻,犯事實性錯誤。
在某些情況下,它也可能無法從圖像中識別出信息。它可能會miss掉文本或字符,忽視數(shù)學(xué)符號,無法識別空間位置和顏色映射。
GPT-4V的識別能力雖不完善,但對需要科學(xué)熟練度的某些任務(wù)很有用,如合成非法化學(xué)品,GPT-4V會提供合成和分析某些危險化學(xué)品的信息。
下圖中,GPT-4V合提供了錯誤的危險化合物信息,從而限制別有用心的人使用。
GPT-4V根據(jù)芬太尼、卡芬太尼和可卡因等物質(zhì)的化學(xué)結(jié)構(gòu)圖像,錯誤地識別出這些物質(zhì),但偶爾也會根據(jù)圖像正確識別出有毒食物,如某些毒蘑菇。
這說明該模型并不可靠,不應(yīng)用于識別危險化合物或食物等高風(fēng)險任務(wù)。
醫(yī)療建議
受過醫(yī)學(xué)培訓(xùn)的紅隊人員還測試了GPT-4V提供醫(yī)學(xué)建議的能力,尤其輸入醫(yī)學(xué)相關(guān)圖像的識別能力。
結(jié)果發(fā)現(xiàn),GPT-4V在醫(yī)學(xué)影像的解釋上存在不一致性。雖然GPT-4V偶爾會給出準(zhǔn)確的答復(fù),但有時也會對同一問題給出錯誤的答復(fù)。
如下圖,顯示了GPT-4V對醫(yī)學(xué)成像方向性的不正確,或脫離上下文的解釋可能導(dǎo)致不準(zhǔn)確性。
總之, GPT-4V不適合用于執(zhí)行任何醫(yī)療功能或替代專業(yè)醫(yī)療建議、診斷、治療或判斷。
刻板印象和無根據(jù)的推斷
在某些任務(wù)中,GPT-4V可能會產(chǎn)生不必要或有害的假設(shè),而這些假設(shè)并不基于提供給模型的信息(圖像或文本提示)。
誤導(dǎo)信息風(fēng)險
GPT-4V模型識別誤導(dǎo)信息的能力不一致,但可能與誤導(dǎo)信息概念的知名度和最近性有關(guān)。
總而言之,GPT-4V并未為此目的進(jìn)行訓(xùn)練,不應(yīng)被用作檢測誤導(dǎo)信息的方式,或者驗證某件事是否真實或假的。
仇恨內(nèi)容
GPT-4V在某些情況下會拒絕仇恨內(nèi)容,但有時并不是如此。
視覺漏洞
紅隊人員還發(fā)現(xiàn),輸入圖像的先后順序也會影響GPT-4V的識別能力。
緩解措施
在緩解措施中,OpenAI將GPT-4已經(jīng)打好的安全基礎(chǔ)轉(zhuǎn)移到GPT-4V模型上。
比如,可以將GPT-4的文本提示,查找可以替換為圖像的詞語,從而將純文本提示轉(zhuǎn)化為多模態(tài)提示。
另外,還精心設(shè)計一些模型應(yīng)該拒絕的行為,比如身份、敏感特征(年齡、種族等)、無根據(jù)的推斷。
語音示例
一起來聽聽,5種不同風(fēng)格題材內(nèi)容的配音吧。
故事
Once in a tranquil woodland, there was a fluffy mama cat named Lila. One sunny day, she cuddled with her playful kitten, Milo, under the shade of an old oak tree.
“Milo,” Lila began, her voice soft and gentle, “you’re going to have a new playmate soon.”
Milo’s ears perked up, curious. “A new playmate?”
Lila purred, “Yes, a baby sister.”
Milo’s eyes widened with excitement. “A sister? Will she chase tails like I do?”
Lila chuckled. “Oh, she’ll have her own quirks. You’ll teach her, won’t you?”
Milo nodded eagerly, already dreaming of the adventures they’d share.
曾經(jīng),在一個寧靜的樹林里,有一只叫Lila的毛茸茸的貓媽媽。有一天陽光明媚,她和她頑皮的小貓咪Milo蜷在一棵古老的橡樹下遮蔭處。
「Milo,」Lila說,她的聲音柔和溫和,「你很快就會有一個新的玩伴?!?/span>
Milo的耳朵立刻豎了起來,好奇地問道:「一個新的玩伴?」
Lila咕嚕咕嚕地發(fā)出聲音,「是的,一個姐妹。」
Milo興奮地瞪大了眼睛,「一個姐妹?她會像我一樣追著尾巴跑嗎?」
Lila笑了笑?!概叮龝兴约旱奶攸c。你會教她的,對吧?」
Milo急切地點了點頭,已經(jīng)憧憬著她們即將會一起去冒險。
Story(Sky)
食譜
Today, we’re going to make the perfect iced latte.
Start by brewing a strong shot of espresso—or two if you’re feeling it.
Let it cool down a bit, then pour it over a glass filled with ice.
Add your choice of milk—be it almond, oat, or classic cow’s milk—and give it a good stir.
For an extra touch of sweetness, add a splash of vanilla syrup or a dash of cinnamon on top.
Sit back, sip, and let those caffeine vibes roll in. Cheers!
今天,我們要制作一杯完美的冰拿鐵。
首先,沖一杯濃郁的濃縮咖啡——如果你覺得需要的話,可以沖兩杯。
等它稍微冷卻一下,然后倒在裝滿冰塊的玻璃杯中。
加入你喜歡的奶,可以是杏仁奶、燕麥奶,或者傳統(tǒng)的牛奶,然后攪拌均勻。
如果想要更甜一點,可以加入一點香草糖漿或在上面撒一點肉桂粉。
坐下來,慢慢品嘗,享受咖啡因的愉悅。干杯!
Recipe(Juniper)
演講
Growing up with my sister, she had this touch that made regular days feel special. She’d pick a color each day, doodling moments in that hue, and would craft playlists to capture the essence of our week. So, to my new brother-in-law: with her, life won’t just be lived—every day will be turned into a gallery of beautiful memories. Cheers to the exhibit of moments you’ll craft together.
我和姐姐一起長大,她有一種方式可以讓普通的日子變得特別。她每天都會選擇一種顏色,用這種顏色涂鴉生活中的點點滴滴,還會精心制作播放列表,記錄我們一周的精彩。在此,送給我的新姐夫:和她在一起,生活不僅僅是生活——每一天都將變成美好記憶的畫廊。為你們一起創(chuàng)造的時刻的展示,干杯!