自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Prompt都不需要了,動(dòng)動(dòng)手就能玩多模態(tài)對話系統(tǒng),iChat來啦!

人工智能
與現(xiàn)有依賴純語言的交互系統(tǒng)不同,iChat 通過加入指向指令,顯著提高用戶與聊天機(jī)器人之間的交流效率。此外,作者還提供了一個(gè)名為哈士奇(Husky)的大型視覺語言模型,可以進(jìn)行 capture 和視覺問答,在僅用 70 億參數(shù)的情況下,也能給 GPT-3.5-turbo 留下深刻印象。

夕小瑤科技說 原創(chuàng)
 作者 | 智商掉了一地

近日有很多團(tuán)隊(duì)基于用戶友好的 ChatGPT 進(jìn)行再創(chuàng)作,其中不乏有比較亮眼的成果。InternChat工作強(qiáng)調(diào)了用戶友好性,這是通過超越語言的方式(光標(biāo)與手勢)與聊天機(jī)器人交互來進(jìn)行多模態(tài)任務(wù)的。InternChat 的命名也比較有趣,代表著互動(dòng)(interaction)、非語言(nonverbal)和聊天機(jī)器人(chatbots),可以簡稱為iChat。與現(xiàn)有依賴純語言的交互系統(tǒng)不同,iChat 通過加入指向指令,顯著提高用戶與聊天機(jī)器人之間的交流效率。此外,作者還提供了一個(gè)名為哈士奇(Husky)的大型視覺語言模型,可以進(jìn)行 capture 和視覺問答,在僅用 70 億參數(shù)的情況下,也能給 GPT-3.5-turbo 留下深刻印象。

不過由于 Demo 網(wǎng)站過于火爆,團(tuán)隊(duì)官方暫時(shí)關(guān)停了體驗(yàn)頁面,咱們先通過下面這個(gè)視頻來了解這項(xiàng)工作內(nèi)容吧~

論文題目:
InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language

論文鏈接:
https://arxiv.org/abs/2305.05662

Demo 地址:
https://ichat.opengvlab.com/

項(xiàng)目地址:
https://github.com/OpenGVLab/InternChat/

系統(tǒng)主要特點(diǎn)

作者在項(xiàng)目首頁上提供了一些任務(wù)截圖,可以直觀地看到這個(gè)交互系統(tǒng)的一些功能與效果:

(a)移除遮蓋的對象

圖片


(b)交互式圖像編輯

圖片

(c)圖像生成

圖片

(d)交互式視覺問答

圖片

(e)交互式圖像生成

圖片

(f)視頻高光解釋

圖片

論文速覽

這里首先介紹本文中提及的兩個(gè)概念:

  • 以視覺為中心的任務(wù):為了讓計(jì)算機(jī)能夠理解它們從世界中看到的內(nèi)容并做出相應(yīng)反應(yīng)。
  • 非語言指令形式的交流:光標(biāo)和手勢之類的指向動(dòng)作。

圖片

▲圖1 iChat 的整體架構(gòu)

iChat 結(jié)合指向和語言指令的優(yōu)勢來執(zhí)行以視覺為中心的任務(wù)。如圖 1 所示,這個(gè)系統(tǒng)由 3 個(gè)主要組件組成:

  1. 處理圖像或視頻上指向指令的感知單元;
  2. 具有可以準(zhǔn)確解析語言指令的輔助控制機(jī)制的 LLM 控制器;
  3. 集成 HuggingFace 各種在線模型、用戶訓(xùn)練的私人模型以及其他應(yīng)用(如計(jì)算器、搜索引擎)的開放世界工具包。

它可以在 3 個(gè)層級上有效運(yùn)行,分別是:

  1. 基礎(chǔ)交互;
  2. 語言引導(dǎo)的交互;
  3. 指向-語言增強(qiáng)的交互。

由此,如圖 2 所示,當(dāng)純語言的系統(tǒng)無法完成任務(wù)時(shí),該系統(tǒng)仍可以成功執(zhí)行復(fù)雜的交互任務(wù)。

圖片

▲圖2 指向-語言驅(qū)動(dòng)的交互系統(tǒng)優(yōu)勢

實(shí)驗(yàn)

首先我們來看,同時(shí)結(jié)合語言和非語言指令來提升用于與交互系統(tǒng)之間的溝通效果。為了證明這種混合模式與單純語言指令相比的優(yōu)點(diǎn),研究團(tuán)隊(duì)進(jìn)行了一個(gè)用戶調(diào)查。參與者與 Visual ChatGPT 和 iChat 聊天,并反饋他們的使用感受。表 1 和 2 的結(jié)果表明,iChat 比 Visual ChatGPT 更高效且對用戶友好。

圖片

▲表1 “移除某物”的用戶調(diào)查

圖片

▲表2 “用某物代替某物”的用戶調(diào)查

小結(jié)

不過,目前該系統(tǒng)仍存在著一些局限性,包括了:

  • iChat 的高效性在很大程度上取決于其底層開放源代碼模型的質(zhì)量和準(zhǔn)確性。然而,這些模型可能存在一些局限或偏見,進(jìn)而對 iChat 的性能造成不利影響。
  • 隨著用戶交互變得更加復(fù)雜或?qū)嵗龜?shù)量增多,系統(tǒng)需要維護(hù)準(zhǔn)確性和響應(yīng)時(shí)間,這對于 iChat 來說可能具有挑戰(zhàn)性。
  • 此外,當(dāng)前的視覺和語言基礎(chǔ)模型之間缺乏可學(xué)習(xí)的協(xié)作,例如缺乏被指令數(shù)據(jù)調(diào)整的功能。
  • iChat 可能會在應(yīng)對訓(xùn)練數(shù)據(jù)之外的新穎或不常見情況時(shí)遇到困難,導(dǎo)致性能受到影響。
  • 在不同設(shè)備和平臺上實(shí)現(xiàn)無縫集成可能會面臨挑戰(zhàn),因?yàn)橛布芰?、軟件限制和可訪問性要求各不相同。

在項(xiàng)目主頁列出的計(jì)劃清單上,目前還有幾項(xiàng)目標(biāo)尚未達(dá)成,其中就有小編每次在新的對話系統(tǒng)上都要體驗(yàn)的中文交互,目前該系統(tǒng)應(yīng)該還是暫不支持中文問題,不過這貌似沒辦法,由于多模態(tài)數(shù)據(jù)集多是基于英文的,英漢互譯較為浪費(fèi)線上資源和處理時(shí)間,估計(jì)漢化之路還是需要一段時(shí)間的。

責(zé)任編輯:武曉燕 來源: 夕小瑤科技說
相關(guān)推薦

2015-05-05 14:50:21

Python不需要操作系統(tǒng)

2021-12-28 18:31:33

人工智能AI開發(fā)

2024-02-22 09:00:00

LogitMat數(shù)據(jù)集算法

2021-11-25 08:16:46

Wi-FiWi-Fi 6路由Wi-Fi 5

2009-02-11 09:30:36

數(shù)據(jù)復(fù)制硬盤拷貝硬盤復(fù)制器

2017-03-13 13:54:40

戴爾

2022-04-21 08:01:34

React框架action

2015-08-12 17:08:15

慧聰電子網(wǎng)

2012-08-23 09:50:07

測試測試人員軟件測試

2009-11-23 12:45:22

2021-03-04 05:43:24

APP退稅教程熱點(diǎn)推薦

2022-05-02 08:30:46

網(wǎng)絡(luò)Wi-Fi

2024-08-09 12:46:53

模型訓(xùn)練

2018-05-29 10:01:31

2010-05-07 10:28:52

Linux系統(tǒng)

2015-09-30 09:57:53

天分熱情工程師

2013-12-02 09:43:29

字符串編程

2015-08-20 10:56:19

算法界面開發(fā)

2013-07-18 09:21:32

代碼文檔

2022-02-15 07:26:34

web前端算法題
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號