自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="tdrzb"></blockquote>}

^{<thead id="tdrzb"></thead>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

谷歌 DeepMind 發(fā)布 WebLI-100B：千億級數(shù)據(jù)集解鎖 AI 視覺語言模型的文化多樣性

作者：故淵 2025-02-17 09:30:00

谷歌 DeepMind 團隊發(fā)布了 WebLI-100B 千億級數(shù)據(jù)集，并通過增強文化多樣性和多語言性，以及減少子組之間的性能差異來提高包容性。

2 月 14 日消息，科技媒體 marktechpost 昨日（2 月 13 日）發(fā)布博文，報道稱谷歌 DeepMind 團隊發(fā)布了 WebLI-100B 千億級數(shù)據(jù)集，并通過增強文化多樣性和多語言性，以及減少子組之間的性能差異來提高包容性。

目前挑戰(zhàn)

IT之家注：機器通過學習大型數(shù)據(jù)集來連接圖像和文本，數(shù)據(jù)越多，模型識別模式和提高準確性的能力就越強。視覺語言模型 (VLMs) 依賴這些數(shù)據(jù)集執(zhí)行圖像字幕和視覺問答等任務。

視覺語言模型目前依賴于 Conceptual Captions 和 LAION 等大型數(shù)據(jù)集，包含數(shù)百萬到數(shù)十億的圖像-文本對。這些數(shù)據(jù)集支持零樣本分類和圖像字幕生成，但其發(fā)展已放緩至約 100 億對。

這種限制降低了進一步提高模型精度、包容性和多語言理解的前景，現(xiàn)有方法基于網(wǎng)絡爬取的數(shù)據(jù)，存在樣本質(zhì)量低、語言偏差和多元文化代表性不足等問題。

WebLI-100B 千億級數(shù)據(jù)集

Google DeepMind 的研究人員為了緩解視覺語言模型在文化多樣性和多語言性方面的局限性，提出了 WebLI-100B 數(shù)據(jù)集，該數(shù)據(jù)集包含 1000 億個圖像-文本對，比之前的數(shù)據(jù)集大十倍。

該數(shù)據(jù)集捕獲了罕見的文化概念，并提高了模型在低資源語言和多樣化表示等較少探索領(lǐng)域的性能。與先前的數(shù)據(jù)集不同，WebLI-100B 不是依賴嚴格的過濾（通常會刪除重要的文化細節(jié)），而是專注于擴展數(shù)據(jù)。

該框架涉及在 WebLI-100B 數(shù)據(jù)集的不同子集（1B、10B 和 100B）上預訓練模型，以分析數(shù)據(jù)縮放的影響。

在完整數(shù)據(jù)集上訓練的模型在文化和多語言任務中的表現(xiàn)優(yōu)于在較小數(shù)據(jù)集上訓練的模型，即使使用相同的計算資源。該數(shù)據(jù)集沒有進行激進的過濾，而是保留了語言和文化元素的廣泛代表性，使其更具包容性。

研究結(jié)果表明，將數(shù)據(jù)集大小從 10B 增加到 100B 對以西方為中心的基準測試的影響很小，但在文化多樣性任務和低資源語言檢索方面帶來了改進。

責任編輯：龐桂玉來源： IT之家

谷歌 AI 人工智能視覺語言模型

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="wavxv"></sub>

^{<sub id="wavxv"></sub>}^{<thead id="wavxv"></thead>}

^{<thead id="wavxv"></thead>}