自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟再扔AI聊天畫圖炸彈!視覺模型加持ChatGPT,Visual ChatGPT橫空出世

開發(fā) 前端
要說ChatGPT已經(jīng)是核彈級的現(xiàn)象,那么微軟今天發(fā)布的Visual ChatGPT可以稱的上宇宙大爆炸。在視覺模型加持下的ChatGPT,聊天生圖全拿捏了。

圖文版ChatGPT誕生了!

剛剛,微軟亞研院發(fā)布了一個炸彈級模型Visual ChatGPT。

圖片

論文地址:https://arxiv.org/abs/2303.04671

以前的ChatGPT雖然具有卓越的對話能力和推理能力,但也有短板——還不能處理或生成視覺圖像。

而Visual Transformers或Stable Diffusion,雖然在視覺理解和生成能力上很強大,卻只有一輪固定的輸入和輸出。

微軟亞研院學者提出的模型,就把視覺模型信息注入了ChatGPT,使用戶能夠與ChatGPT以語言和圖像的形式交互,還能提供復雜的視覺指令,讓多個模型通過多步驟協(xié)作。

微軟前不久推出的Kosmos-1,就屬于多模態(tài)大語言模型,傳言下周發(fā)布的GPT4,據(jù)說也是轉(zhuǎn)向了多模態(tài)??磥?,微軟在下一盤多模態(tài)的大棋。

作畫、上色、摳圖,一鍵拿捏

注入視覺模型后,ChatGPT直接化身藝術(shù)大師,想要什么作品,動動嘴就行了。

-幫我畫一個蘋果。Visual ChatGPT直接生成了一張畫好的圖。

圖片

這還僅是前菜,Visual ChatGPT各種畫風全能hold住,比如:

隨便給個草圖框架,它便能輸出一幅精美的畫作。

圖片

另外,上色、「摳圖」、深度圖、基于深度圖再生成圖片都能拿捏。

一張簡陋的圖經(jīng)過你的精心調(diào)教后,就變成了這個樣子。

圖片

當然了,Visual ChatGPT沒有忘本,讓它進行創(chuàng)作的同時,還能描述圖片、回答問題。

圖片

有了Visual ChatGPT的加持,微軟必應簡直可以制霸全世界了。

Prompt Manager,讓視覺模型立刻和ChatGPT合體

研究者是如何想到這個點子的呢?

當紅炸子雞ChatGPT能輸入輸出文字類的信息,但是在圖像理解和生成方面能力有限。

Visual ChatGPT并非是從頭訓練的,而是直接基于ChatGPT構(gòu)建,并向其注入了許多可視化模型(VFMs)。Stable Diffusion就是可視化模型的典型代表。

VFMs雖然在文本-圖像生成上展現(xiàn)出巨大能力,但在人機交互上卻不如對話語言模型靈活。

微軟亞研院的研究人員便get了一個點,將這兩者結(jié)合,提出Visual ChatGPT,豈不是強強聯(lián)合。

點子有了,那視覺模型信息如何注入ChatGPT呢?就是通過一系列提示。

論文中提出了Prompt Manager,具體步驟是——

1 首先明確告訴ChatGPT每個VFM的能力,并指定輸入-輸出格式。

2 然后轉(zhuǎn)換不同的視覺信息,比如將Png圖、深度圖和掩模矩陣,轉(zhuǎn)換為語言格式。

3 最后處理不同VFMs的歷史、優(yōu)先級和沖突。

圖片

在Prompt Manager的幫助下,ChatGPT可以利用這些VFMs,并以迭代的方式接收其反饋,直到滿足用戶的要求或達到結(jié)束條件。

如圖,上傳一個黃色花朵的圖像,然后輸入一個復雜語言指令「請根據(jù)圖像的預測深度生成一朵紅色花朵,然后一步一步地把它做成卡通形象」。

Visual ChatGPT便開始執(zhí)行任務鏈:

首先應用深度估計模型來檢測深度信息,然后利用深度圖像模型生成一個帶有深度信息的紅色花朵圖形,最后利用基于Stable Diffusion的風格轉(zhuǎn)換VFM,將該圖像轉(zhuǎn)化為卡通風格。

在上述管道中,Prompt Manager通過提供可視化格式的類型,和記錄信息轉(zhuǎn)換的過程,來充當ChatGPT的調(diào)度器。

最后,當 Visual ChatGPT從Prompt Manager獲得「卡通」提示時,將結(jié)束執(zhí)行管道,并顯示最終結(jié)果。

模型概述

圖片

左邊是進行的三輪對話;中間是Visual ChatGPT如何迭代調(diào)用VFMs并提供答案的流程圖;右側(cè)是第二個QA的詳細過程。

M(P)

Visual ChatGPT為了能讓不同的VFM理解視覺信息并生成相應答案,需要設計一系列系統(tǒng)原則,并將其轉(zhuǎn)化為ChatGPT能夠理解的提示。

通過生成這樣的提示,Prompt Manager能夠幫助Visual ChatGPT完成生成文本、圖像的任務,能夠訪問一系列VFM并自由選擇使用哪個基礎(chǔ)模型,提高對文件名的敏感度,進行鏈式思考和嚴格推理。

M(F)

Prompt Manager需要幫助Visual ChatGPT區(qū)分不同的VFM,以便準確地完成圖像任務。

為此,Prompt Manager對各個基礎(chǔ)模型的名稱、應用場景、輸入和輸出提示以及實例給出了具體定義。

M(Q)

Prompt Manager會對用戶新上傳的圖像生成唯一文件名,并生成假的對話歷史,其中提到該名稱的圖片已經(jīng)收到,這樣可以在涉及引用現(xiàn)有圖像的查詢時忽略文件名的檢查。

Prompt Manager會在查詢問題之后加上一個后綴提示,來確保成功觸發(fā)VFM,強制Visual ChatGPT進行思考,給出言之有物的輸出。

M(F(A))

VFM給出的中間輸出,Prompt Manager會為其生成鏈式文件名,作為下一輪內(nèi)部對話的輸入。

ChatGPT生成最終答案要經(jīng)歷一個不斷迭代的過程,它會不斷自我詢問,自動調(diào)用更多VFM。而當用戶指令不夠清晰時,Visual ChatGPT會詢問其能否提供更多細節(jié),避免機器自行揣測甚至篡改人類意圖。

圖片

Prompt Manager概述

每個視覺基礎(chǔ)模型的GPU顯存使用情況如下:

圖片

通過修改self.tools來調(diào)整模型的使用數(shù)量,便可以節(jié)省顯存。

案例研究

此外,論文還分析了在各個模塊,如果Prompt Manager的設計不到位,會各自出現(xiàn)什么問題。

比如,對于工具包的描述,需要對其名字、功能、輸入輸出有嚴格的設計。不過舉例影響不大,只要描述清楚,ChatGPT便可以理解。

圖片

另外,在M(P)中,不強調(diào)對圖片文件名的敏感,沒有嚴格的思考鏈格式、不強調(diào)可靠性、還有可以使用鏈式使用工具,模型在輸出時就會產(chǎn)生錯誤。

論文中,作者也指出了當前Visual ChatGPT存在的一些局限。

比如,需要大量的提示來將VFMs轉(zhuǎn)換成語言,實時能力有限、token長度有限制等等。

作者介紹

論文一作吳晨飛,高級研究員,2020年加入微軟亞洲研究院自然語言計算組,研究領(lǐng)域為多模型的預訓練、理解和生成。

圖片

通訊作者段楠,微軟亞洲研究院首席研究員及自然語言計算組研究經(jīng)理,中國科學技術(shù)大學兼職博導,天津大學兼職教授,研究領(lǐng)域為自然語言處理、代碼智能、多模態(tài)智能和機器推理等。

圖片

Visual ChatGPT的橫空出世,讓ChatGPT聊天更加絲滑了。

圖片

有網(wǎng)友預測,這個功能會迅速集成到新必應中,可能作為付費服務,讓日常消費者更接近與「人類」的對話……

也有網(wǎng)友說,這個應用簡直堪比早期的智能手機,相當于人們早期的應用程序開發(fā)??梢韵胂?,它們最終的使用范圍會比最初設想的要廣泛得多。

責任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2010-03-25 10:04:10

UbuntuOne M

2021-12-17 07:00:56

ESMongoDBRedisJson

2018-11-29 10:49:36

2024-01-12 10:25:02

蓋茨ChatGPT

2010-12-09 09:09:37

2016-10-08 23:30:58

Power8云計算

2013-11-01 09:07:15

2022-05-12 15:25:16

惡意軟件網(wǎng)絡攻擊

2020-10-28 11:54:05

AI 數(shù)據(jù)人工智能

2022-12-23 15:01:33

ChatGPT谷歌

2009-05-07 18:50:35

四核Nehalem服務器

2016-04-27 11:01:11

SparkStormApache Apex

2024-02-22 16:50:50

2014-01-17 14:08:45

移動os國產(chǎn)軟件

2023-02-21 21:48:29

2023-04-19 07:34:21

AutoGPT程序員GitHub

2011-05-04 15:09:56

激光打印機奔圖科技

2024-10-05 12:20:00

2020-10-12 14:47:25

芯片半導體技術(shù)

2023-09-05 12:59:33

模型數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號