自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="tojim"></sup>

<style id="tojim"></style><blockquote id="tojim"><i id="tojim"></i></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

國(guó)產(chǎn)多模態(tài)卷上下文長(zhǎng)度：原生支持24K圖文輸入輸出，圖像視頻理解對(duì)標(biāo)GPT4V

2024-07-31 15:08:35

為了兼顧模型對(duì)于視覺(jué)內(nèi)容的理解和語(yǔ)言創(chuàng)作能力，IXC2.5采用了一種 PLoRA（局部LoRA）的模型架構(gòu)，即對(duì)于視覺(jué)Token單獨(dú)增加一組LoRA參數(shù)進(jìn)行編碼，通過(guò)這種方式讓新增的LoRA參數(shù)只影響視覺(jué)Token，一方面可以幫助模型更好的理解視覺(jué)信息，同時(shí)減少對(duì)模型語(yǔ)言能力的影響。

國(guó)產(chǎn)多模態(tài)大模型，也開(kāi)始卷上下文長(zhǎng)度。

書(shū)生·浦語(yǔ)靈筆（InternLM-XComposer）多模態(tài)大模型升級(jí)2.5版本——

原生支持24K多模態(tài)圖文上下文，超過(guò)20輪的圖文交互，具備圖像視頻理解、網(wǎng)頁(yè)創(chuàng)作、圖文寫(xiě)作等多項(xiàng)功能。

該開(kāi)源模型一出，一度在Hugging Face登上熱榜第五。

圖片

作為8B量級(jí)性能最優(yōu)秀的多模態(tài)大模型之一，它在多項(xiàng)評(píng)測(cè)性能上對(duì)標(biāo)GPT4V和Gemini Pro。

圖片

而除了支持長(zhǎng)上下文輸入，InternLM-XComposer 2.5版本（以下簡(jiǎn)稱(chēng)IXC 2.5）同時(shí)訓(xùn)練了長(zhǎng)序列輸出能力，模型支持高質(zhì)量網(wǎng)頁(yè)創(chuàng)作和文章生成。

兼容三種多模態(tài)理解能力

IXC 2.5同時(shí)兼顧了多模態(tài)模型的理解和內(nèi)容輸出能力，主要包括三種多模態(tài)理解能力。

包括超過(guò)4K分辨率的圖像理解、多輪多圖超長(zhǎng)對(duì)話(huà)、精細(xì)視頻內(nèi)容分析。

來(lái)具體看看大模型實(shí)力如何。

高分辨率圖像理解，它支持分析文檔、網(wǎng)頁(yè)、圖表等信息豐富的超高清圖像。

比如扔給它之前的文章，圖像分辨率為1312x22619像素，并詢(xún)問(wèn)IXC 2.5關(guān)于截圖內(nèi)容的問(wèn)題。

圖片

嗯，還能知道是量子位公眾號(hào)。

就是詢(xún)問(wèn)一些圖中的論文細(xì)節(jié)，它也能正確回答。

多輪多圖超長(zhǎng)對(duì)話(huà)，支持自由形式的多輪多圖對(duì)話(huà)，進(jìn)行超過(guò)20輪圖文交互，提供自然的多模態(tài)交互體驗(yàn)。

為了實(shí)現(xiàn)這一能力，研究團(tuán)隊(duì)構(gòu)造了第一個(gè)多模態(tài)長(zhǎng)上下文指令數(shù)據(jù)集MMDU。該數(shù)據(jù)集包括了平均15輪圖文對(duì)話(huà)，最大20張圖像，最多對(duì)話(huà)輪次可以到27次，數(shù)據(jù)集現(xiàn)已開(kāi)源。

圖片

精細(xì)視頻內(nèi)容分析，在多項(xiàng)視頻大模型評(píng)測(cè)中表現(xiàn)出色。

圖片

研究團(tuán)隊(duì)構(gòu)造了ShareGPT4Video圖像描述數(shù)據(jù)集，包括了3000個(gè)小時(shí)的精細(xì)視頻描述標(biāo)注。視頻數(shù)據(jù)來(lái)源多樣，包括Panda，EGO-4D，Pexels，Pixabay等，涵蓋豐富的場(chǎng)景，數(shù)據(jù)集已經(jīng)開(kāi)源。

圖片

除此之外，內(nèi)容輸出的能力也得到了升級(jí)。

網(wǎng)頁(yè)創(chuàng)作。IXC 2.5擴(kuò)展了網(wǎng)頁(yè)代碼的編寫(xiě)能力，可以根據(jù)圖文指令輸入，編寫(xiě)對(duì)應(yīng)的網(wǎng)頁(yè)前端和交互代碼（HTML，CSS，JavaScript）。

在該能力的支持下，IXC 2.5實(shí)現(xiàn)了三個(gè)實(shí)用的功能，包括：

（1）網(wǎng)頁(yè)截圖轉(zhuǎn)代碼：輸入網(wǎng)頁(yè)截圖，輸出對(duì)應(yīng)截圖的前端代碼
（2）語(yǔ)言指令做網(wǎng)頁(yè)：輸入網(wǎng)頁(yè)制作要求，創(chuàng)作網(wǎng)頁(yè)代碼并渲染
（3）個(gè)人簡(jiǎn)歷做網(wǎng)頁(yè)：輸入個(gè)人簡(jiǎn)歷PDF，制作對(duì)應(yīng)個(gè)人簡(jiǎn)歷的主頁(yè)

圖片

圖文寫(xiě)作。本次IXC 2.5構(gòu)造了2000篇涵蓋各種文體，包括：高考作文、散文、小說(shuō)等不同文風(fēng)文章的文筆質(zhì)量打分?jǐn)?shù)據(jù)，并使用這些數(shù)據(jù)訓(xùn)練的一個(gè)reward model。

使用該reward model進(jìn)一步構(gòu)造了30000篇文章質(zhì)量偏好數(shù)據(jù)，用于直接偏好學(xué)習(xí)（DPO）訓(xùn)練，大幅提升了文章創(chuàng)作的文筆和穩(wěn)定性。IXC 2.5不僅支持高質(zhì)量寫(xiě)作，還可以給出文章寫(xiě)作評(píng)價(jià)。

以2024高考新課標(biāo)Ⅱ卷為例，IXC 2.5不僅可以寫(xiě)出文筆優(yōu)秀的高考作文，對(duì)于作文的點(diǎn)評(píng)也顯得非常專(zhuān)業(yè)。

圖片

圖像與視頻理解的統(tǒng)一架構(gòu)

今年4月，IXC團(tuán)隊(duì)提出了4K分辨率圖像多模態(tài)大模型方案IXC2-4KHD，可以處理任意長(zhǎng)寬比的高分辨率圖像。

IXC 2.5基于4KHD框架進(jìn)行擴(kuò)展，實(shí)現(xiàn)了一套可以統(tǒng)一處理高分辨率圖像和視頻的多模態(tài)模型架構(gòu)。

視頻幀拼圖。

對(duì)于視頻數(shù)據(jù)，IXC 2.5會(huì)均勻采樣視頻幀，并將視頻幀拼成一個(gè)超長(zhǎng)的高分辨率圖片。每一幀圖像上用文字標(biāo)記視頻的時(shí)序信息。

全局特征（Global View）。

將整張高分辨率圖像整體resize到560x560大小，用ViT抽取全局特征。

局部特征（Local View）。

將高分辨率圖像切塊，每塊560x560分辨率，分別抽取局部特征

特征拼接：將Global View和Local View的特征拼成一個(gè)序列，用’\n’ token標(biāo)記圖像長(zhǎng)寬比布局，用’sp’ token分隔全局特征和局部特征。

圖片

為了兼顧模型對(duì)于視覺(jué)內(nèi)容的理解和語(yǔ)言創(chuàng)作能力，IXC2.5采用了一種 PLoRA（局部LoRA）的模型架構(gòu)，即對(duì)于視覺(jué)Token單獨(dú)增加一組LoRA參數(shù)進(jìn)行編碼，通過(guò)這種方式讓新增的LoRA參數(shù)只影響視覺(jué)Token，一方面可以幫助模型更好的理解視覺(jué)信息，同時(shí)減少對(duì)模型語(yǔ)言能力的影響。

圖片

IXC社區(qū)提供完善的量化、部署、微調(diào)代碼支持，提供在線demo和在線demo的本地運(yùn)行代碼，包括：

量化和部署（LMDepoly支持）：IXC 2.5由LMDeploy項(xiàng)目支持模型部署和量化，只需要不到24GB顯存就可以運(yùn)行，同時(shí)支持多卡推理降低單卡顯存要求。

圖片

微調(diào)（原生支持&Modelscope Swift）：IXC 2.5支持使用研究團(tuán)隊(duì)開(kāi)源的微調(diào)代碼，以及Modelscope Swift項(xiàng)目支持的微調(diào)代碼兩種實(shí)現(xiàn)，使用LoRA微調(diào)最少只需要32GB顯存。
Demo代碼：IXC 2.5的demo代碼使用Whisper和MeloTTS支持了語(yǔ)音輸入輸出，支持本地部署，代碼現(xiàn)已開(kāi)源。

項(xiàng)目地址：
https://github.com/InternLM/InternLM-XComposer論文地址：
https://arxiv.org/pdf/2407.03320

責(zé)任編輯：武曉燕來(lái)源：量子位

國(guó)產(chǎn)多模態(tài)IXC2.5

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="66wdx"></sub>

<sub id="66wdx"></sub>