自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="cw4zt"></blockquote>}

<sub id="cw4zt"></sub>

^{<blockquote id="cw4zt"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

大語言模型的視覺天賦：GPT也能通過上下文學(xué)習(xí)解決視覺任務(wù)

作者：機(jī)器之心 2023-07-09 15:09:18

新聞人工智能

LLM 的能力還可以發(fā)揮到機(jī)器學(xué)習(xí)的更多子領(lǐng)域。

當(dāng)前，大型語言模型（LLM）已經(jīng)掀起自然語言處理（NLP）領(lǐng)域的變革浪潮。我們看到 LLM 具備強(qiáng)大的涌現(xiàn)能力，在復(fù)雜的語言理解任務(wù)、生成任務(wù)乃至推理任務(wù)上都表現(xiàn)優(yōu)異。這啟發(fā)人們進(jìn)一步探索 LLM 在機(jī)器學(xué)習(xí)另一子領(lǐng)域 —— 計(jì)算機(jī)視覺（CV）方面的潛力。

LLM 的一項(xiàng)卓越才能是它們具備上下文學(xué)習(xí)的能力。上下文學(xué)習(xí)不會(huì)更新 LLM 的任何參數(shù)，卻在各種 NLP 任務(wù)中卻展現(xiàn)出了令人驚艷的成果。那么，GPT 能否通過上下文學(xué)習(xí)解決視覺任務(wù)呢？

最近，來自谷歌和卡內(nèi)基梅隆大學(xué)（CMU）的研究者聯(lián)合發(fā)表的一篇論文表明：只要我們能夠?qū)D像（或其他非語言模態(tài)）轉(zhuǎn)化為 LLM 能夠理解的語言，這似乎是可行的。

圖片

論文地址：https://arxiv.org/abs/2306.17842

這篇論文揭示了 PaLM 或 GPT 在通過上下文學(xué)習(xí)解決視覺任務(wù)方面的能力，并提出了新方法 SPAE（Semantic Pyramid AutoEncoder）。這種新方法使得 LLM 能夠執(zhí)行圖像生成任務(wù)，而無需進(jìn)行任何參數(shù)更新。這也是使用上下文學(xué)習(xí)使得 LLM 生成圖像內(nèi)容的首個(gè)成功方法。

我們先來看一下通過上下文學(xué)習(xí)，LLM 在生成圖像內(nèi)容方面的實(shí)驗(yàn)效果。

例如，在給定上下文中，通過提供 50 張手寫圖像，論文要求 PaLM 2 回答需要生成數(shù)字圖像作為輸出的復(fù)雜查詢：

圖片

還能在有圖像上下文輸入的情況下生成逼真的現(xiàn)實(shí)圖像：

圖片

除了生成圖像，通過上下文學(xué)習(xí)，PaLM 2 還能進(jìn)行圖像描述：

還有與圖像相關(guān)問題的視覺問答：

圖片

甚至可以去噪生成視頻：

圖片

方法概述

實(shí)際上，將圖像轉(zhuǎn)化為 LLM 能夠理解的語言，是在視覺 Transformer（ViT）論文中就已經(jīng)研究過的問題。在 Google 和 CMU 的這篇論文中，他們將其提升到了一個(gè)新的層次 —— 使用實(shí)際的單詞來表示圖像。

這種方法就像建造一個(gè)充滿文字的塔樓，捕捉圖像的語義和細(xì)節(jié)。這種充滿文字的表示方法讓圖像描述可以輕松生成，并讓 LLM 可以回答與圖像相關(guān)的問題，甚至可以重構(gòu)圖像像素。

具體來說，該研究提出使用經(jīng)過訓(xùn)練的編碼器和 CLIP 模型將圖像轉(zhuǎn)換為一個(gè) token 空間；然后利用 LLM 生成合適的詞法 token；最后使用訓(xùn)練有素的解碼器將這些 token 轉(zhuǎn)換回像素空間。這個(gè)巧妙的過程將圖像轉(zhuǎn)換為 LLM 可以理解的語言，使我們能夠利用 LLM 在視覺任務(wù)中的生成能力。

實(shí)驗(yàn)及結(jié)果

該研究將 SPAE 與 SOTA 方法 Frozen 和 LQAE 進(jìn)行了實(shí)驗(yàn)比較，結(jié)果如下表 1 所示。SPAEGPT 在所有任務(wù)上性能均優(yōu)于 LQAE，且僅使用 2% 的 token。

圖片

總的來說，在 mini-ImageNet 基準(zhǔn)上的測試表明，SPAE 方法相比之前的 SOTA 方法提升了 25% 的性能。

圖片

為了驗(yàn)證 SPAE 設(shè)計(jì)方法的有效性，該研究進(jìn)行了消融實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如下表 4 和圖 10 所示：

圖片

圖片

感興趣的讀者可以閱讀論文原文，了解更多研究內(nèi)容。

責(zé)任編輯：張燕妮來源：機(jī)器之心

機(jī)器學(xué)習(xí)能力

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="4a6hs"><track id="4a6hs"><sub id="4a6hs"></sub></track></cite>

^{<thead id="4a6hs"></thead>}