自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="eehrp"><strike id="eehrp"><strong id="eehrp"></strong></strike></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

微軟再扔AI聊天畫圖炸彈！視覺模型加持ChatGPT，Visual ChatGPT橫空出世

作者：新智元 2023-03-10 13:11:12

開發(fā) 前端

要說ChatGPT已經(jīng)是核彈級的現(xiàn)象，那么微軟今天發(fā)布的Visual ChatGPT可以稱的上宇宙大爆炸。在視覺模型加持下的ChatGPT，聊天生圖全拿捏了。

圖文版ChatGPT誕生了！

剛剛，微軟亞研院發(fā)布了一個炸彈級模型Visual ChatGPT。

論文地址：https://arxiv.org/abs/2303.04671

以前的ChatGPT雖然具有卓越的對話能力和推理能力，但也有短板——還不能處理或生成視覺圖像。

而Visual Transformers或Stable Diffusion，雖然在視覺理解和生成能力上很強大，卻只有一輪固定的輸入和輸出。

微軟亞研院學者提出的模型，就把視覺模型信息注入了ChatGPT，使用戶能夠與ChatGPT以語言和圖像的形式交互，還能提供復雜的視覺指令，讓多個模型通過多步驟協(xié)作。

微軟前不久推出的Kosmos-1，就屬于多模態(tài)大語言模型，傳言下周發(fā)布的GPT4，據(jù)說也是轉(zhuǎn)向了多模態(tài)?？磥?，微軟在下一盤多模態(tài)的大棋。

作畫、上色、摳圖，一鍵拿捏

注入視覺模型后，ChatGPT直接化身藝術(shù)大師，想要什么作品，動動嘴就行了。

-幫我畫一個蘋果。Visual ChatGPT直接生成了一張畫好的圖。

這還僅是前菜，Visual ChatGPT各種畫風全能hold住，比如：

隨便給個草圖框架，它便能輸出一幅精美的畫作。

另外，上色、「摳圖」、深度圖、基于深度圖再生成圖片都能拿捏。

一張簡陋的圖經(jīng)過你的精心調(diào)教后，就變成了這個樣子。

當然了，Visual ChatGPT沒有忘本，讓它進行創(chuàng)作的同時，還能描述圖片、回答問題。

有了Visual ChatGPT的加持，微軟必應簡直可以制霸全世界了。

Prompt Manager，讓視覺模型立刻和ChatGPT合體

研究者是如何想到這個點子的呢？

當紅炸子雞ChatGPT能輸入輸出文字類的信息，但是在圖像理解和生成方面能力有限。

Visual ChatGPT并非是從頭訓練的，而是直接基于ChatGPT構(gòu)建，并向其注入了許多可視化模型（VFMs）。Stable Diffusion就是可視化模型的典型代表。

VFMs雖然在文本-圖像生成上展現(xiàn)出巨大能力，但在人機交互上卻不如對話語言模型靈活。

微軟亞研院的研究人員便get了一個點，將這兩者結(jié)合，提出Visual ChatGPT，豈不是強強聯(lián)合。

點子有了，那視覺模型信息如何注入ChatGPT呢？就是通過一系列提示。

論文中提出了Prompt Manager，具體步驟是——

1 首先明確告訴ChatGPT每個VFM的能力，并指定輸入-輸出格式。

2 然后轉(zhuǎn)換不同的視覺信息，比如將Png圖、深度圖和掩模矩陣，轉(zhuǎn)換為語言格式。

3 最后處理不同VFMs的歷史、優(yōu)先級和沖突。

在Prompt Manager的幫助下，ChatGPT可以利用這些VFMs，并以迭代的方式接收其反饋，直到滿足用戶的要求或達到結(jié)束條件。

如圖，上傳一個黃色花朵的圖像，然后輸入一個復雜語言指令「請根據(jù)圖像的預測深度生成一朵紅色花朵，然后一步一步地把它做成卡通形象」。

Visual ChatGPT便開始執(zhí)行任務鏈：

首先應用深度估計模型來檢測深度信息，然后利用深度圖像模型生成一個帶有深度信息的紅色花朵圖形，最后利用基于Stable Diffusion的風格轉(zhuǎn)換VFM，將該圖像轉(zhuǎn)化為卡通風格。

在上述管道中，Prompt Manager通過提供可視化格式的類型，和記錄信息轉(zhuǎn)換的過程，來充當ChatGPT的調(diào)度器。

最后，當 Visual ChatGPT從Prompt Manager獲得「卡通」提示時，將結(jié)束執(zhí)行管道，并顯示最終結(jié)果。

模型概述

左邊是進行的三輪對話；中間是Visual ChatGPT如何迭代調(diào)用VFMs并提供答案的流程圖；右側(cè)是第二個QA的詳細過程。

M（P）

Visual ChatGPT為了能讓不同的VFM理解視覺信息并生成相應答案，需要設計一系列系統(tǒng)原則，并將其轉(zhuǎn)化為ChatGPT能夠理解的提示。

通過生成這樣的提示，Prompt Manager能夠幫助Visual ChatGPT完成生成文本、圖像的任務，能夠訪問一系列VFM并自由選擇使用哪個基礎(chǔ)模型，提高對文件名的敏感度，進行鏈式思考和嚴格推理。

M（F）

Prompt Manager需要幫助Visual ChatGPT區(qū)分不同的VFM，以便準確地完成圖像任務。

為此，Prompt Manager對各個基礎(chǔ)模型的名稱、應用場景、輸入和輸出提示以及實例給出了具體定義。

M（Q）

Prompt Manager會對用戶新上傳的圖像生成唯一文件名，并生成假的對話歷史，其中提到該名稱的圖片已經(jīng)收到，這樣可以在涉及引用現(xiàn)有圖像的查詢時忽略文件名的檢查。

Prompt Manager會在查詢問題之后加上一個后綴提示，來確保成功觸發(fā)VFM，強制Visual ChatGPT進行思考，給出言之有物的輸出。

M（F（A））

VFM給出的中間輸出，Prompt Manager會為其生成鏈式文件名，作為下一輪內(nèi)部對話的輸入。

ChatGPT生成最終答案要經(jīng)歷一個不斷迭代的過程，它會不斷自我詢問，自動調(diào)用更多VFM。而當用戶指令不夠清晰時，Visual ChatGPT會詢問其能否提供更多細節(jié)，避免機器自行揣測甚至篡改人類意圖。

Prompt Manager概述

每個視覺基礎(chǔ)模型的GPU顯存使用情況如下：

通過修改self.tools來調(diào)整模型的使用數(shù)量，便可以節(jié)省顯存。

案例研究

此外，論文還分析了在各個模塊，如果Prompt Manager的設計不到位，會各自出現(xiàn)什么問題。

比如，對于工具包的描述，需要對其名字、功能、輸入輸出有嚴格的設計。不過舉例影響不大，只要描述清楚，ChatGPT便可以理解。

另外，在M(P)中，不強調(diào)對圖片文件名的敏感，沒有嚴格的思考鏈格式、不強調(diào)可靠性、還有可以使用鏈式使用工具，模型在輸出時就會產(chǎn)生錯誤。

論文中，作者也指出了當前Visual ChatGPT存在的一些局限。

比如，需要大量的提示來將VFMs轉(zhuǎn)換成語言，實時能力有限、token長度有限制等等。

作者介紹

論文一作吳晨飛，高級研究員，2020年加入微軟亞洲研究院自然語言計算組，研究領(lǐng)域為多模型的預訓練、理解和生成。

通訊作者段楠，微軟亞洲研究院首席研究員及自然語言計算組研究經(jīng)理，中國科學技術(shù)大學兼職博導，天津大學兼職教授，研究領(lǐng)域為自然語言處理、代碼智能、多模態(tài)智能和機器推理等。

Visual ChatGPT的橫空出世，讓ChatGPT聊天更加絲滑了。

有網(wǎng)友預測，這個功能會迅速集成到新必應中，可能作為付費服務，讓日常消費者更接近與「人類」的對話……

也有網(wǎng)友說，這個應用簡直堪比早期的智能手機，相當于人們早期的應用程序開發(fā)?？梢韵胂?，它們最終的使用范圍會比最初設想的要廣泛得多。

責任編輯：武曉燕來源：新智元

ChatGPT AI 微軟

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<tfoot id="evgi6"></tfoot>

^{<blockquote id="evgi6"></blockquote>}

<strong id="evgi6"></strong>