自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

幫視障人士“看見”圖片字節(jié)跳動最新視覺語言預(yù)訓(xùn)練模型入選ICML 2022

2022-06-16 19:53:51

信息無障礙研究會發(fā)布的報告顯示，超過90%的視障人士會使用智能手機了解外面的世界。

近日，字節(jié)跳動AI Lab Research 團隊推出一項視覺語言預(yù)訓(xùn)練模型，支持多模態(tài)的理解和生成，例如將畫面轉(zhuǎn)化為準確、流暢的描述文字，幫助視障人士“看見”圖片。這項技術(shù)成果已入選人工智能國際頂級會議ICML 2022，并應(yīng)用于今日頭條App、大力智能燈等業(yè)務(wù)場景。

據(jù)了解，這個名為X-VLM 的模型在業(yè)內(nèi)首次提出學(xué)習多粒度的視覺和語言對齊，能為圖片生成更為精準的描述，比如更正確地識別物體、描述物體間的關(guān)系。

信息無障礙研究會發(fā)布的報告顯示，超過90%的視障人士會使用智能手機了解外面的世界。此前，手機系統(tǒng)自帶的讀屏軟件已經(jīng)實現(xiàn)把屏幕上的文字念出來，幫助視障人士“讀”新聞、“看”文章?？捎龅轿恼轮械膱D片，讀屏軟件往往無法識別，只能播報“圖片”二字。

采用了X-VLM 模型，今日頭條App可以自動識別圖片，還能將它們“翻譯”成通順流暢的語句，并通過語音播報出來，助力視障人士解決讀圖難題。

值得一提的是，X-VLM可在模型規(guī)模和預(yù)訓(xùn)練數(shù)據(jù)有限的情況下實現(xiàn)高效訓(xùn)練。數(shù)據(jù)顯示：僅216M參數(shù)量的X-VLM模型就能在圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成等廣泛的多模態(tài)任務(wù)上獲得十分優(yōu)秀的表現(xiàn)。目前，X-VLM在字節(jié)跳動的真實應(yīng)用場景上的表現(xiàn)已超過一些業(yè)界領(lǐng)先的最新模型。

近年來，人工智能在助推無障礙環(huán)境方面發(fā)揮了重要作用。利用技術(shù)持續(xù)改進無障礙與適老化體驗是字節(jié)跳動在公益方面的重要方向。除了在抖音系產(chǎn)品中不斷完善無障礙功能，字節(jié)跳動還通過面向企業(yè)用戶的云服務(wù)平臺火山引擎，以技術(shù)輸出的方式，服務(wù)更廣泛的社會群體。

論文：Multi-Grained Vision Language
Pre-Training: Aligning Texts with Visual Concepts（??https://arxiv.org/abs/2111.08276??）

代碼：https://github.com/zengyan-97/X-VLM

責任編輯：黃顯東

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<bdo id="yrzhm"></bdo>

<cite id="yrzhm"></cite>

<sub id="yrzhm"></sub>