自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="3nnjr"><rp id="3nnjr"></rp></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

更懂中文還兼顧SD生態(tài)，360開源文生圖模型結(jié)構(gòu)，寡姐秒變中國(guó)新娘

作者：量子位 2024-12-19 09:30:00

人工智能新聞

“原生中文”問題指的不僅僅是文生圖模型支持中文輸入，更核心的是要求模型生成的人、物形象應(yīng)該符合中文文化的認(rèn)知。

具備原生中文理解能力，還兼容Stable Diffusion生態(tài)。

最新模型結(jié)構(gòu)Bridge Diffusion Model來了。

與Dreambooth模型結(jié)合，它生成的穿中式婚禮禮服的歪國(guó)明星長(zhǎng)這樣。

它由360人工智能研究院提出，最近剛被AAAI接收，并已開源。

類似ControlNet的分支網(wǎng)絡(luò)思路

文生圖模型的中文原生問題，一直是一個(gè)重點(diǎn)研究問題。

受算力和數(shù)據(jù)因素的限制，國(guó)內(nèi)大量的中文AI繪畫產(chǎn)品背后，實(shí)際上很多是以開源的英文模型及其微調(diào)模型為能力基座，但是，英文模型包括且不限于SD1.4/1.5/2.1/3.5以及DALLE、Midjourney、Flux等，因?yàn)檫@些模型的訓(xùn)練數(shù)據(jù)以英文數(shù)據(jù)為主，因此在生成圖像時(shí)，主體形象包括人物、物品、建筑、車輛、服飾、標(biāo)志等，都存在非常普遍和明顯的英文世界觀偏見。

BDM是我們?cè)诙嗄B(tài)生成方向比較早期的工作，關(guān)注兩個(gè)關(guān)鍵問題：
1）原生中文及生成模型的世界觀偏見
2）與SD生態(tài)的兼容性

冷大煒博士對(duì)BDM工作的主要著眼點(diǎn)做了如上的精煉概括。

“原生中文”問題指的不僅僅是文生圖模型支持中文輸入，更核心的是要求模型生成的人、物形象應(yīng)該符合中文文化的認(rèn)知。

下圖是AI繪畫模型的世界觀偏見實(shí)例，從左到右分別是SDXL，Midjourney，國(guó)內(nèi)友商B*，國(guó)內(nèi)友商V*：

中文AI繪畫模型，從實(shí)現(xiàn)的路線選擇上，從易到難大致有以下幾種方式：

英文模型 + 翻譯。

簡(jiǎn)單直接，除了翻譯外幾無成本。這種方式只能解決表面上的中文輸入問題，并不能解決英文模型因?yàn)槟Ｐ推姸鵁o法生成符合中文文化認(rèn)知形象的問題。

英文模型 + 隱式翻譯。

與顯式調(diào)用翻譯服務(wù)不同，這種方式是將英文模型的text encoder替換為中文text encoder，并利用中英文平行語料對(duì)中文text encoder進(jìn)行訓(xùn)練，使其輸出的embedding空間與原來的英文text encoder對(duì)齊。本質(zhì)上屬于一種隱式翻譯，也是成本非常低的一種方案，同樣無法解決模型的世界觀偏見問題。

英文模型 + 隱式翻譯 + 微調(diào)。

在上面方法基礎(chǔ)上，將對(duì)齊了text encoder的模型使用中文圖文數(shù)據(jù)進(jìn)一步整體微調(diào)以提升模型對(duì)中文形象的輸出能力。可以在一定程度上緩解英文基底模型帶來的模型偏見問題。

中文數(shù)據(jù)從頭訓(xùn)練。

這是最徹底的一種中文化方案：理解中文輸入，并能給出符合中文文化認(rèn)知的圖像輸出結(jié)果，可以完美解決模型的世界觀偏見問題。

上述四種路線，第4種路線看上去非常完美，但仍有一點(diǎn)值得額外的研發(fā)努力：在基座模型之外，我們需要進(jìn)一步考慮的是大模型時(shí)代的模型生態(tài)問題。

圍繞著以SD為代表的開源模型，已形成了非常龐大的開源社區(qū)生態(tài)，這個(gè)生態(tài)中大量衍生風(fēng)格模型、插件模型等積累了非常寶貴的群體智力資產(chǎn)。

在克服AI繪畫模型世界觀偏見的基礎(chǔ)上，進(jìn)一步實(shí)現(xiàn)對(duì)開源社區(qū)的兼容，就是我們的BDM工作所要解決的第二個(gè)關(guān)鍵問題。

BDM從模型結(jié)構(gòu)上是一種類似ControlNet的分支網(wǎng)絡(luò)思路，以不同的網(wǎng)絡(luò)分支學(xué)習(xí)不同語言的數(shù)據(jù)，因此從原理上BDM不僅可以實(shí)現(xiàn)原生中文圖像生成，也可以實(shí)現(xiàn)任意X語言的圖像生成，并保證生成的圖像符合對(duì)應(yīng)語言文化的認(rèn)知。

英文部分可以直接復(fù)用已有的開源模型，從而實(shí)現(xiàn)與開源社區(qū)的無縫兼容。注意BDM在使用時(shí)只需要輸入一種語言，比如輸入中文時(shí)，英文分支是以空文本作為輸入的。

BDM v1版本使用10億量級(jí)的中文圖文數(shù)據(jù)進(jìn)行訓(xùn)練，并兼容SD1.5社區(qū)生態(tài)。

下圖展示了BDM在生成中文特有概念的能力和翻譯無法應(yīng)對(duì)的中英多義情況下的生成效果：

下圖則展示了BDM在SD1.5社區(qū)生態(tài)兼容性上的情況，可以看到BDM對(duì)不同的SD1.5風(fēng)格微調(diào)模型具有很好的兼容性，特別是BDM同時(shí)保持了中文形象的輸出能力，更多案例請(qǐng)?jiān)斠夾AAI論文。

關(guān)于360人工智能研究院

在360集團(tuán)All in AI的大背景下，360人工智能研究院發(fā)揮自身的智力優(yōu)勢(shì)，承擔(dān)多模態(tài)理解和多模態(tài)生成大模型（俗稱圖生文和文生圖）的戰(zhàn)略研發(fā)任務(wù)，并在兩個(gè)方向上持續(xù)發(fā)力，陸續(xù)研發(fā)了360VL多模態(tài)大模型，BDM文生圖模型，可控布局HiCo模型，以及新一代DiT架構(gòu)Qihoo-T2X等一系列工作。

近日，研究院在多模態(tài)理解方向的工作IAA和在多模態(tài)生成方向的工作BDM分別被AI領(lǐng)域的top會(huì)議AAAI接收，這兩項(xiàng)工作的研發(fā)負(fù)責(zé)人為冷大煒博士。

據(jù)悉本屆AAAI 2025會(huì)議收到近1.3萬份投稿，接收3032份工作，接收率僅為23.4%。

Arxiv: https://arxiv.org/abs/2309.00952
Github: https://github.com/360CVGroup/Bridge_Diffusion_Model

責(zé)任編輯：張燕妮來源：量子位

模型生成數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<u id="vt1yz"><optgroup id="vt1yz"></optgroup></u>