ChatGPT App重大進(jìn)化!能看能聽還會說,多模態(tài)模型細(xì)節(jié)同時(shí)公布
OpenAI連發(fā)兩則重磅消息,首先ChatGPT可以看、聽、說了。
新版ChatGPT開啟一種更直觀的交互方式,可以向AI展示正在談?wù)摰膬?nèi)容。
比如拍一張照片,詢問如何調(diào)整自行車座椅高度。
官方還給出另一個(gè)實(shí)用場景思路:打開冰箱拍一張照片,詢問AI晚餐可以吃什么,并生成完整菜譜。
更新將在接下來的兩周內(nèi)向ChatGPT Plus訂閱用戶和企業(yè)版用戶推出,iOS和安卓都支持。
與此同時(shí),多模態(tài)版GPT-4V模型更多細(xì)節(jié)也一并放出。
其中最令人驚訝的是,多模態(tài)版早在2022年3月就訓(xùn)練完了……
看到這里,有網(wǎng)友靈魂發(fā)問:有多少創(chuàng)業(yè)公司在剛剛5分鐘之內(nèi)死掉了?
看聽說皆備,全新交互方式
更新后的ChatGPT移動APP里,可以直接拍照上傳,并針對照片中的內(nèi)容提出問題。
比如“如何調(diào)整自行車座椅高度”,ChatGPT會給出詳細(xì)步驟。
如果你完全不熟悉自行車結(jié)構(gòu)也沒關(guān)系,還可以圈出照片的一部分問ChatGPT“說的是這個(gè)嗎?”。
就像在現(xiàn)實(shí)世界中用手給別人指一個(gè)東西一樣。
不知道用什么工具,甚至可以把工具箱打開拍給ChatGPT,它不光能指出需要的工具在左邊,連標(biāo)簽上的文字也能看懂。
提前得到使用資格的用戶也分享了一些測試結(jié)果。
可以分析自動化工作流程圖。
但是沒有認(rèn)出一張劇照具體出自哪部電影。
△認(rèn)出的朋友歡迎在評論區(qū)回復(fù)
語音部分的演示還是上周DALL·E 3演示的聯(lián)動彩蛋。
讓ChatGPT把5歲小朋友幻想中的“超級向日葵刺猬”講成一個(gè)完整的睡前故事。
△DALL·E3演示
ChatGPT這次講的故事文字摘錄如下:
過程中更具體的多輪語音交互細(xì)節(jié),以及語音試聽可參考視頻。
,時(shí)長01:41
多模態(tài)GPT-4V能力大揭秘
結(jié)合所有公布的視頻演示與GPT-4V System Card中的內(nèi)容,手快的網(wǎng)友已經(jīng)總結(jié)出GPT-4V的視覺能力大揭秘。
- 物體檢測:GPT-4V可以檢測和識別圖像中的常見物體,如汽車、動物、家居用品等。其物體識別能力在標(biāo)準(zhǔn)圖像數(shù)據(jù)集上進(jìn)行了評估。
- 文本識別:該模型具有光學(xué)字符識別 (OCR) 功能,可以檢測圖像中的打印或手寫文本并將其轉(zhuǎn)錄為機(jī)器可讀文本。這在文檔、標(biāo)志、標(biāo)題等圖像中進(jìn)行了測試。
- 人臉識別:GPT-4V可以定位并識別圖像中的人臉。它具有一定的能力,可以根據(jù)面部特征識別性別、年齡和種族屬性。其面部分析能力是在 FairFace 和 LFW 等數(shù)據(jù)集上進(jìn)行測量的。
- 驗(yàn)證碼解決:在解決基于文本和圖像的驗(yàn)證碼時(shí),GPT-4V顯示出了視覺推理能力。這表明該模型具有高級解謎能力。
- 地理定位:GPT-4V 具有識別風(fēng)景圖像中描繪的城市或地理位置的能力,這證明模型吸收了關(guān)于現(xiàn)實(shí)世界的知識,但也代表有泄露隱私的風(fēng)險(xiǎn)。
- 復(fù)雜圖像:該模型難以準(zhǔn)確解釋復(fù)雜的科學(xué)圖表、醫(yī)學(xué)掃描或具有多個(gè)重疊文本組件的圖像。它錯(cuò)過了上下文細(xì)節(jié)。
同時(shí)也總結(jié)了GPT-4V目前的局限性。
- 空間關(guān)系:模型可能很難理解圖像中對象的精確空間布局和位置。它可能無法正確傳達(dá)對象之間的相對位置。
- 對象重疊:當(dāng)圖像中的對象嚴(yán)重重疊時(shí),GPT-4V 有時(shí)無法區(qū)分一個(gè)對象的結(jié)束位置和下一個(gè)對象的開始位置。它可以將不同的對象混合在一起。
- 背景/前景:模型并不總是準(zhǔn)確地感知圖像的前景和背景中的對象。它可能會錯(cuò)誤地描述對象關(guān)系。
- 遮擋:當(dāng)圖像中某些對象被其他對象部分遮擋或遮擋時(shí),GPT-4V 可能無法識別被遮擋的對象或錯(cuò)過它們與周圍對象的關(guān)系。
- 細(xì)節(jié):模型經(jīng)常會錯(cuò)過或誤解非常小的物體、文本或圖像中的復(fù)雜細(xì)節(jié),從而導(dǎo)致錯(cuò)誤的關(guān)系描述。
- 上下文推理:GPT-4V缺乏強(qiáng)大的視覺推理能力來深入分析圖像的上下文并描述對象之間的隱式關(guān)系。
- 置信度:模型可能會錯(cuò)誤地描述對象關(guān)系,與圖像內(nèi)容不符。
同時(shí)System Card中也重點(diǎn)聲明了“目前在科學(xué)研究和醫(yī)療用途中性能不可靠”。
另外后續(xù)還要繼續(xù)研究,是否應(yīng)該讓模型識別公眾人物,是否應(yīng)該允許模型從人物圖像中推斷性別、種族或情感等問題。
有網(wǎng)友已經(jīng)想好,等更新了要問的第一件事是Sam Altman照片的背包里裝的是什么。
那么,你想好第一件事問什么了么?
參考鏈接:
[1]https://openai.com/blog/chatgpt-can-now-see-hear-and-speak。
[2]https://openai.com/research/gpt-4v-system-card。
[3]https://x.com/IntuitMachine/status/1706307412401979455。
[4]https://x.com/youraimarketer/status/1706461715078975778。