自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

幫視障人士“看見”圖片 字節(jié)跳動最新視覺語言預(yù)訓(xùn)練模型入選ICML 2022

新聞
信息無障礙研究會發(fā)布的報告顯示,超過90%的視障人士會使用智能手機了解外面的世界。

近日,字節(jié)跳動AI Lab Research 團隊推出一項視覺語言預(yù)訓(xùn)練模型,支持多模態(tài)的理解和生成,例如將畫面轉(zhuǎn)化為準確、流暢的描述文字,幫助視障人士“看見”圖片。這項技術(shù)成果已入選人工智能國際頂級會議ICML 2022,并應(yīng)用于今日頭條App、大力智能燈等業(yè)務(wù)場景。

據(jù)了解,這個名為X-VLM 的模型在業(yè)內(nèi)首次提出學(xué)習多粒度的視覺和語言對齊,能為圖片生成更為精準的描述,比如更正確地識別物體、描述物體間的關(guān)系。

信息無障礙研究會發(fā)布的報告顯示,超過90%的視障人士會使用智能手機了解外面的世界。此前,手機系統(tǒng)自帶的讀屏軟件已經(jīng)實現(xiàn)把屏幕上的文字念出來,幫助視障人士“讀”新聞、“看”文章??捎龅轿恼轮械膱D片,讀屏軟件往往無法識別,只能播報“圖片”二字。

采用了X-VLM 模型,今日頭條App可以自動識別圖片,還能將它們“翻譯”成通順流暢的語句,并通過語音播報出來,助力視障人士解決讀圖難題。

值得一提的是,X-VLM可在模型規(guī)模和預(yù)訓(xùn)練數(shù)據(jù)有限的情況下實現(xiàn)高效訓(xùn)練。數(shù)據(jù)顯示:216M參數(shù)量的X-VLM模型就能在圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成等廣泛的多模態(tài)任務(wù)上獲得十分優(yōu)秀的表現(xiàn)。目前,X-VLM在字節(jié)跳動的真實應(yīng)用場景上的表現(xiàn)已超過一些業(yè)界領(lǐng)先的最新模型。

近年來,人工智能在助推無障礙環(huán)境方面發(fā)揮了重要作用。利用技術(shù)持續(xù)改進無障礙與適老化體驗是字節(jié)跳動在公益方面的重要方向。除了在抖音系產(chǎn)品中不斷完善無障礙功能,字節(jié)跳動還通過面向企業(yè)用戶的云服務(wù)平臺火山引擎,以技術(shù)輸出的方式,服務(wù)更廣泛的社會群體。

論文:Multi-Grained Vision Language
Pre-Training: Aligning Texts with Visual Concepts(
??https://arxiv.org/abs/2111.08276??

代碼:https://github.com/zengyan-97/X-VLM



責任編輯:黃顯東
相關(guān)推薦

2022-03-04 19:07:03

模型視覺人工智能

2017-12-26 13:53:31

深度學(xué)習遷移學(xué)習

2022-07-12 10:37:08

阿里巴巴達摩院機器學(xué)習

2023-07-22 13:30:02

模型視覺

2022-08-16 16:22:07

計算機視覺

2022-08-01 10:07:34

訓(xùn)練模型圖片

2021-01-21 14:23:53

Facebook AI 人工智能

2024-06-28 16:03:38

2022-04-26 15:09:14

優(yōu)化模型訓(xùn)練

2021-10-13 18:59:42

AI

2013-10-11 11:27:15

微軟IEIE11

2022-03-21 17:56:59

大模型訓(xùn)練訓(xùn)練框架

2022-03-21 15:06:10

模型字節(jié)跳動框架

2020-06-11 17:17:55

百度大腦

2023-01-03 16:54:27

字節(jié)跳動深度學(xué)習

2024-01-03 18:53:13

語言模型LLM

2024-01-29 00:24:07

圖像模型預(yù)訓(xùn)練

2025-03-13 07:00:00

2023-10-15 12:54:55

點贊
收藏

51CTO技術(shù)棧公眾號