自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

再也不怕「視頻會議」尬住了!谷歌CHI頂會發(fā)布新神器Visual Captions:讓圖片做你的字幕助手

人工智能 新聞
一圖勝千言,再也不怕視頻會議說不明白了!

最近幾年,「視頻會議」在工作中的占比逐漸增加,廠商也開發(fā)了各種諸如實時字幕等技術以方便會議中不同語言的人之間交流。

但還有一個痛點,要是對話中提到了一些對方很陌生的名詞,并且很難用語言描述出來,比如食物「壽喜燒」,或是說「上周去了某個公園度假」,很難用語言給對方描述出的美景;甚至是指出「東京位于日本關東地區(qū)」,需要一張地圖來展示等,如果只用語言可能會讓對方越來越迷茫。

圖片

最近,谷歌在人機交互頂級會議ACM CHI(Conference on Human Factors in Computing Systems)上展示了一個系統(tǒng)Visual Captions,介紹了遠程會議中的一個全新視覺解決方案,可以在對話背景中生成或檢索圖片以提高對方對復雜或陌生概念的了解。

圖片

論文鏈接:https://research.google/pubs/pub52074/

代碼鏈接:https://github.com/google/archat

Visual Captions系統(tǒng)基于一個微調后的大型語言模型,可以在開放詞匯的對話中主動推薦相關的視覺元素,并已融入開源項目ARChat中。

圖片

在用戶調研中,研究人員邀請了實驗室內的26位參與者,與實驗室外的10位參與者對系統(tǒng)進行評估,超過80%的用戶基本都認同Video Captions可以在各種場景下能提供有用、有意義的視覺推薦,并可以提升交流體驗。

設計思路

在開發(fā)之前,研究人員首先邀請了10位內部參與者,包括軟件工程師、研究人員、UX設計師、視覺藝術家、學生等技術與非技術背景的從業(yè)者,討論對實時視覺增強服務的特定需求和期望。

兩次會議后,根據(jù)現(xiàn)有的文本轉圖像系統(tǒng),確立了預期原型系統(tǒng)的基本設計,主要包括八個維度(記為D1至D8)。

D1:時序,視覺增強系統(tǒng)可與對話同步或異步展現(xiàn)

D2:主題,可用于表達和理解語音內容

D3:視覺,可使用廣泛的視覺內容、視覺類型和視覺源

D4:規(guī)模,根據(jù)會議規(guī)模的不同,視覺增強效果可能有所不同

D5:空間,視頻會議是在同一地點還是在遠程設置中

D6:隱私,這些因素還影響視覺效果是否應該私下顯示、在參與者之間共享或向所有人公開

D7:初始狀態(tài),參與者還確定了他們希望在進行對話時與系統(tǒng)交互的不同方式,例如,不同級別的「主動性」,即用戶可以自主確定系統(tǒng)何時介入聊天D8:交互,參與者設想了不同的交互方法,例如,使用語音或手勢進行輸入

圖片

用動態(tài)的視覺效果增強語言交流的設計空間

根據(jù)初步反饋,研究人員設計了Video Caption系統(tǒng),專注于生成語義相關的視覺內容、類型和來源的同步視覺效果。

雖然在探索性會議中的想法大多關注于一對一遠程對話的形式,Video Caption同樣也可以用于一對多的(例如,向觀眾進行演示)和多對多場景(多人會議討論)的部署。

除此之外,最能補充對話的視覺效果在很大程度上取決于討論的上下文,所以需要一個專門制作的訓練集。

研究人員收集了1595個四元組,包括語言、視覺內容、類型、來源,涵蓋了各種上下文場景,包括日常對話、講座、旅行指南等。

比如用戶說「我很想看看!」(I would love to see it!)對應于「面部微笑」(face smiling)的視覺內容、「表情符號」(emoji)的視覺類型和「公共搜索」(public search)的視覺源。

「她有沒有告訴你我們去墨西哥的事?」對應于「來自墨西哥之旅的照片」的視覺內容、「照片」的視覺類型以及「個人相冊」的視覺源。

該數(shù)據(jù)集VC 1.5K目前已開源。

圖片

數(shù)據(jù)鏈接:https://github.com/google/archat/tree/main/dataset

視覺意圖預測模型

為了預測哪些視覺效果可以補充對話,研究人員使用VC1.5K數(shù)據(jù)集基于大型語言模型訓練了一個視覺意圖預測模型。

在訓練階段,每個視覺意圖解析為「 <Visual Type> of <Visual Content> from <Visual Source> 」的格式。

圖片

基于該格式,系統(tǒng)可以處理開放詞匯會話和上下文預測視覺內容、視覺源和視覺類型。

圖片

這種方法在實踐中也優(yōu)于基于關鍵詞的方法,因為后者無法處理開放式詞匯的例子,比如用戶可能會說「你的艾米阿姨將在這個星期六來訪」,沒有匹配到關鍵詞,也就無法推薦相關的視覺類型或視覺來源。

研究人員使用VC1.5K數(shù)據(jù)集中的1276個(80%)樣本來微調大型語言模型,其余319個(20%)示例作為測試數(shù)據(jù),并使用token準確率指標來度量微調模型的性能,即模型正確預測的樣本中token正確的百分比。

最終模型可以實現(xiàn)97%的訓練token準確率和87%的驗證token準確率。

實用性調研

為了評估訓練的視覺字幕模型的實用性,研究團隊邀請了89名參與者執(zhí)行846項任務,要求對效果進行打分,1為非常不同意(strongly disagree)、7為非常同意(strongly agree)。

實驗結果顯示,大多數(shù)參與者更喜歡在對話中看到視覺效果(Q1),83% 給出了5-有些同意(somewhat agree)以上的評價。

此外,參與者認為顯示的視覺效果是有用的且信息豐富的(Q2),82%給出了高于5分的評價;高質量的(Q3),82%給出了高于5分的評價;并與原始語音相關(Q4,84%)。

參與者還發(fā)現(xiàn)預測的視覺類型(Q5,87%)和視覺來源(Q6,86%)在相應對話的背景下是準確的。

圖片

研究參與者對可視化預測模型的技術評價結果進行評分

基于該微調的視覺意圖預測模型,研究人員在ARChat平臺上開發(fā)了Visual Captions,可以直接在視頻會議平臺(如Google Meet)的攝像頭流上添加新的交互式小部件。

在系統(tǒng)工作流程中,Video Captions可以自動捕獲用戶的語音、檢索最后的句子、每隔100毫秒將數(shù)據(jù)輸入到視覺意圖預測模型中、檢索相關視覺效果,然后提供推薦的視覺效果。

圖片

Visual Captions的系統(tǒng)工作流

Visual Captions在推薦視覺效果時提供三個級別的可選主動性:

自動顯示(高主動性):系統(tǒng)自主搜索并向所有會議參與者公開顯示視覺效果,無需用戶交互。

自動推薦(中等主動性):推薦的視覺效果顯示在私人滾動視圖中,然后用戶點擊一個視覺對象可以進行公開展示;在這種模式下,系統(tǒng)會主動推薦視覺效果,但用戶決定何時顯示以及顯示什么。

按需建議(低主動性):用戶按下空格鍵后,系統(tǒng)才會推薦視覺效果。

研究人員在對照實驗室研究(n = 26)和測試階段部署研究(n = 10)中評估了Visual Captions系統(tǒng),參與者發(fā)現(xiàn),實時視覺效果有助于解釋不熟悉的概念、解決語言歧義,并使對話更具吸引力,從而促進了現(xiàn)場對話。

圖片

參與者的task load指數(shù)和Likert scale評級,包括無VC、以及三個不同主動性的VC

與會者還報告了在現(xiàn)場進行交互中的不同的系統(tǒng)偏好,即在不同的會議場景中使用不同程度的VC主動性

責任編輯:張燕妮 來源: 新智元
相關推薦

2021-03-19 09:55:15

Linuxshell命令

2020-05-07 16:08:28

Linuxshell命令

2023-02-19 12:43:20

Linux視頻

2020-07-17 11:26:17

視頻會議數(shù)字化網(wǎng)絡

2019-12-26 09:38:57

GitHub工具 wxpy

2014-12-17 11:19:09

H.264

2020-04-20 15:00:22

DevOps工具代碼

2011-06-28 12:56:06

2022-05-17 11:48:06

谷歌賬號安全

2011-07-29 14:51:40

2020-05-07 09:05:22

電腦Python代碼

2018-05-18 14:39:46

華為 華為云

2022-04-14 10:22:30

NginxLinux

2014-07-18 15:54:04

goTenna:隨身無

2021-08-12 11:05:07

C++語言內存泄露

2009-09-18 20:36:32

視頻會議系統(tǒng)視頻輸入設備紅杉樹

2013-01-09 16:44:53

2011-05-06 20:32:12

飛魚星視頻會議飛視美

2023-11-28 17:49:51

watch?computed?性能
點贊
收藏

51CTO技術棧公眾號