自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 原創(chuàng)

發(fā)布于 2024-5-24 11:30
瀏覽
0收藏

一、人機交互發(fā)展史

先簡單了解下人機交互的歷史。

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 -AI.x社區(qū)

打孔卡

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 -AI.x社區(qū)

命令行(CLI)

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 -AI.x社區(qū)

圖形用戶界面(GUI)

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 -AI.x社區(qū)

AR/VR/MR

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 -AI.x社區(qū)

語音助手

像Siri,小愛同學等語音助手雖然也能通過自然語言交互,只能打開某個應用,或者搜索互聯(lián)網(wǎng),一般不能理解UI中的元素。

二、ScreenAI:多模態(tài)大模型

谷歌近期推出多模態(tài)大模型ScreenAI,帶來人機界面交互新方式。ScreenAI不僅能夠理解UI上的元素,還具有推理能力,并且能根據(jù)用戶指令與UI進行交互。

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 -AI.x社區(qū)

項目主頁:https://research.google/blog/screenai-a-visual-language-model-for-ui-and-visually-situated-language-understanding/
論文:https://arxiv.org/pdf/2402.04615.pdf
代碼:https://github.com/kyegomez/ScreenAI

只需要輸入一張圖片,以及一個文本指令,ScreenAI則會輸出文本。根據(jù)用戶指令不同,輸出可以是:

導航指令

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 -AI.x社區(qū)

總結

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 -AI.x社區(qū)

標注信息

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 -AI.x社區(qū)

問答

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 -AI.x社區(qū)

ScreenAI是一個基于PALI的視覺語言模型。由一個多模態(tài)編碼器和一個自回歸解碼器組成,編碼器用于編碼視覺和文本輸入,解碼器則能夠輸出文本。

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 -AI.x社區(qū)


三、訓練數(shù)據(jù)

  1. 先從手機電腦、平板電腦等不同設備上截屏。
  2. 獲取截圖布局信息,主要通過DETR目標檢測模型識別UI上的元素,如圖像,按鈕,文本等元素以及位置信息。
  3. 對識別的ICON進一步分類
  4. 使用PALI大模型或者OCR提取ICON文本信息。??

得到如下標注信息。

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 -AI.x社區(qū)

6.使用大語言模型基于上面的標注信息去生成多任務問答,總結,導航等訓練數(shù)據(jù)

針對不同任務,需要精心設計Prompt,如下Prompt則是用于生成問答訓練數(shù)據(jù)。

You only speak JSON. Do not write text that isn’t JSON.
You are given the following mobile screenshot, described in words. Can you generate 5 questions regarding the content of the screenshot as well as the corresponding short answers to them?


The answer should be as short as possible, containing only the necessary information. Your answer should be structured as follows:
questions: [
{{question: the question,
answer: the answer
}},
...
]


{THE SCREEN SCHEMA}

整個訓練數(shù)據(jù)制作流程如下:

谷歌多模態(tài)大模型ScreenAI:帶來人機界面交互新方式 -AI.x社區(qū)




本文轉載自公眾號人工智能大講堂 

原文鏈接:??https://mp.weixin.qq.com/s/TSOkh5LEnE0sraE6yGRaCw??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦