幫視障人士“看見”圖片 字節(jié)跳動最新視覺語言預(yù)訓(xùn)練模型入選ICML 2022
近日,字節(jié)跳動AI Lab Research 團隊推出一項視覺語言預(yù)訓(xùn)練模型,支持多模態(tài)的理解和生成,例如將畫面轉(zhuǎn)化為準確、流暢的描述文字,幫助視障人士“看見”圖片。這項技術(shù)成果已入選人工智能國際頂級會議ICML 2022,并應(yīng)用于今日頭條App、大力智能燈等業(yè)務(wù)場景。
據(jù)了解,這個名為X-VLM 的模型在業(yè)內(nèi)首次提出學(xué)習多粒度的視覺和語言對齊,能為圖片生成更為精準的描述,比如更正確地識別物體、描述物體間的關(guān)系。
信息無障礙研究會發(fā)布的報告顯示,超過90%的視障人士會使用智能手機了解外面的世界。此前,手機系統(tǒng)自帶的讀屏軟件已經(jīng)實現(xiàn)把屏幕上的文字念出來,幫助視障人士“讀”新聞、“看”文章??捎龅轿恼轮械膱D片,讀屏軟件往往無法識別,只能播報“圖片”二字。
采用了X-VLM 模型,今日頭條App可以自動識別圖片,還能將它們“翻譯”成通順流暢的語句,并通過語音播報出來,助力視障人士解決讀圖難題。
值得一提的是,X-VLM可在模型規(guī)模和預(yù)訓(xùn)練數(shù)據(jù)有限的情況下實現(xiàn)高效訓(xùn)練。數(shù)據(jù)顯示:僅216M參數(shù)量的X-VLM模型就能在圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成等廣泛的多模態(tài)任務(wù)上獲得十分優(yōu)秀的表現(xiàn)。目前,X-VLM在字節(jié)跳動的真實應(yīng)用場景上的表現(xiàn)已超過一些業(yè)界領(lǐng)先的最新模型。
近年來,人工智能在助推無障礙環(huán)境方面發(fā)揮了重要作用。利用技術(shù)持續(xù)改進無障礙與適老化體驗是字節(jié)跳動在公益方面的重要方向。除了在抖音系產(chǎn)品中不斷完善無障礙功能,字節(jié)跳動還通過面向企業(yè)用戶的云服務(wù)平臺火山引擎,以技術(shù)輸出的方式,服務(wù)更廣泛的社會群體。
論文:Multi-Grained Vision Language
Pre-Training: Aligning Texts with Visual Concepts(??https://arxiv.org/abs/2111.08276??)
代碼:https://github.com/zengyan-97/X-VLM