自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="5u9ku"></sub>

<legend id="5u9ku"><track id="5u9ku"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Qwen原生多模態(tài)開源，淺析一下！

發(fā)布于 2025-3-28 00:45

瀏覽

0收藏

Qwen2.5-Omni 7B開源，Qwen的第一個(gè)端到端的多模態(tài)模型，可以文本、圖像、音頻和視頻輸入，同時(shí)以流式方式生成文本和自然語音回復(fù)。

提出了 Thinker-Talker 架構(gòu)。

Qwen原生多模態(tài)開源，淺析一下！-AI.x社區(qū)

PR還沒合進(jìn)去，要注意安裝方式

Qwen原生多模態(tài)開源，淺析一下！-AI.x社區(qū)

評測的榜似乎畫的有點(diǎn)趕，看不出信息量。

Qwen原生多模態(tài)開源，淺析一下！-AI.x社區(qū)

提出了一種新的位置嵌入，稱為 TMRoPE（時(shí)間對齊多模態(tài) RoPE），用于同步視頻輸入的時(shí)戳與音頻。

資源占用：理論值如下，實(shí)際要在高1.2倍，看起來消耗有點(diǎn)大。

瞄下代碼，關(guān)于輸入，每個(gè)模態(tài)都有專門的處理組件：

class Qwen2_5OmniProcessor(ProcessorMixin):
    attributes = ["omni_processor", "feature_extractor", "tokenizer"]
    omni_processor_class = "Qwen2VLImageProcessor"
    feature_extractor_class = "WhisperFeatureExtractor"
    tokenizer_class = ("Qwen2Tokenizer", "Qwen2TokenizerFast")

視頻這里，還計(jì)算每個(gè)視頻時(shí)間網(wǎng)格對應(yīng)的實(shí)際秒數(shù)，用于TMRoPE中的時(shí)間對齊

if videos is not None:
    videos_inputs = self.omni_processor(images=None, videos=videos, **output_kwargs["videos_kwargs"])
    if fps is None:
        fps = [2.0] * len(videos)
    videos_inputs["video_second_per_grid"] = [
        fps[i] / self.omni_processor.temporal_patch_size for i in range(len(fps))
    ]

模型代碼的核心由3塊構(gòu)成，Thinker，Talker，Token2Wav

talker是將文本轉(zhuǎn)成語音編碼，Token2Wav是將編碼轉(zhuǎn)成波形。

里邊實(shí)現(xiàn)了幾個(gè)Token2Wav變體：

Qwen2_5OmniToken2WavDiTModel：基于擴(kuò)散模型的波形生成
Qwen2_5OmniToken2WavBigVGANModel：基于GAN的波形生成
Qwen2_5OmniToken2WavModel：通用基類

文本輸出和語音輸出是兩條并行的路徑：

文本輸出：輸入 → Thinker → 文本輸出
語音輸出：輸入 → Thinker → Talker → Token2Wav → 語音輸出

只有當(dāng)需要語音輸出時(shí)，才會(huì)激活Talker模塊和Token2Wav模塊，將Thinker生成的文本內(nèi)容轉(zhuǎn)換為語音。

細(xì)節(jié)可以自行看源碼，不貼了。

在看看新的位置編碼。

對于純文本，使用常規(guī)的1D位置編碼。

對于包含視覺（圖像/視頻）和文本的混合輸入，函數(shù)分別計(jì)算：

視覺部分用3D位置編碼
文本部分用1D位置編碼

比如說，一個(gè)有3個(gè)時(shí)間片、2×2空間分辨率的視頻示例：

輸入序列: [V V V V V V V V V V V V T T T T T]
視覺時(shí)間位置ID: [0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2]
視覺高度位置ID: [0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1]
視覺寬度位置ID: [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1]
文本位置ID從視覺最大位置ID+1開始: [3, 4, 5, 6, 7]

將時(shí)間維度映射到位置ID，考慮每秒對應(yīng)多少個(gè)位置單位（position_id_per_seconds）

t_index = (torch.arange(grid_t) * second_per_grids[video_idx] * position_id_per_seconds).long()
llm_pos_ids = self.get_llm_pos_ids_for_vision(
    start_idx, video_idx, spatial_merge_size, t_index, grid_hs, grid_ws
)

針對視頻中包含音頻的情況，還單獨(dú)處理了，視頻和音頻交替編碼，按時(shí)間塊組織，每個(gè)時(shí)間塊包含視頻幀和對應(yīng)的音頻段，音頻有特殊的開始和結(jié)束標(biāo)記（audio_start_token_id和audio_end_token_id）

# 視頻和音頻混合處理
t_index_split_chunk = self.split_list_into_ranges(t_index, t_ntoken_per_chunk)

for t_chunk in t_index_split_chunk:
    vision_ntoken_per_chunk = len(t_chunk) * grid_h * grid_w // (spatial_merge_size**2)
    new_src_item.extend([video_token_id] * vision_ntoken_per_chunk)
    # 為視頻區(qū)塊分配位置ID
    
    new_src_item.extend(min(t_ntoken_per_chunk, pure_audio_len - added_audio_len) * [audio_token_id])
    # 為音頻區(qū)塊分配位置ID

最后開源地址：https://huggingface.co/Qwen/Qwen2.5-Omni-7B

代碼地址：https://github.com/huggingface/transformers/blob/3a1ead0aabed473eafe527915eea8c197d424356/src/transformers/models/qwen2_5_omni/modeling_qwen2_5_omni.py#L1175

本文轉(zhuǎn)載自??NLP前沿??，作者：NLP前沿

標(biāo)簽

多模態(tài)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

不平衡場景下的多模態(tài)知識(shí)圖譜補(bǔ)全

mb5f8eba9bdb0af ? 2807瀏覽 ? 0回復(fù)
于是我們動(dòng)手檢測了一下……

51CTO技術(shù)棧 ? 2179瀏覽 ? 0回復(fù)
看一下收支財(cái)務(wù)數(shù)據(jù)

51CTO技術(shù)棧 ? 1834瀏覽 ? 0回復(fù)
AI斗圖神器：普通視頻秒變meme，手繪動(dòng)畫輕松融入，了解一下？

Crystalcxt ? 2038瀏覽 ? 0回復(fù)
Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項(xiàng)超越GPT4o與Claude 3.5-Sonnet

angel ? 9201瀏覽 ? 0回復(fù)
Meta開源多模態(tài)模型——Llama 3.2

Aceryt ? 2627瀏覽 ? 0回復(fù)
多模態(tài)大模型Qwen2的深入了解

一起AI技術(shù) ? 3057瀏覽 ? 0回復(fù)
多模態(tài)RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

小虎哦哦 ? 2700瀏覽 ? 0回復(fù)
多模態(tài)RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

AI科技論談 ? 2911瀏覽 ? 0回復(fù)
來認(rèn)識(shí)一下 Ivy-VL：一種僅包含 30 億個(gè)邊緣設(shè)備參數(shù)的輕量級(jí)多模態(tài)模型

Halo咯咯 ? 2288瀏覽 ? 0回復(fù)
Qwen 團(tuán)隊(duì)發(fā)布 QvQ：用于多模態(tài)推理的開放權(quán)重模型

Halo咯咯 ? 2061瀏覽 ? 0回復(fù)
用AI大模型輕松駕馭深度閱讀，漸進(jìn)式摘要了解一下？

草臺(tái)AI ? 2504瀏覽 ? 0回復(fù)
基于阿里開源Qwen2.5-7B-Instruct模型進(jìn)行多代理RAG開發(fā)實(shí)戰(zhàn)

51CTO內(nèi)容精選 ? 2298瀏覽 ? 0回復(fù)
allenai開源多模態(tài)的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 2463瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎(jiǎng)勵(lì)模型；將獎(jiǎng)勵(lì)模型多模態(tài)情緒識(shí)別上

AI研究前瞻 ? 1629瀏覽 ? 0回復(fù)
Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 2759瀏覽 ? 0回復(fù)
Qwen2.5-VL-32B：多模態(tài)大模型的性能與效率新標(biāo)桿

Halo咯咯 ? 1098瀏覽 ? 0回復(fù)
Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析

大模型自然語言處理 ? 1011瀏覽 ? 0回復(fù)
CPU推理僅29ms，微軟開源第一個(gè)原生 1 bit 大模型，內(nèi)存只需Qwen 1.5B的1/15

PaperAgent ? 379瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

推理大模型并非一定要推理 7天前發(fā)布
llama 4，開源！ 2025-04-10 07:06:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：圖RAG統(tǒng)一框架來了，12種RAG方法一網(wǎng)打盡！

下一篇： Deepseek-R1，論文番外篇!

社區(qū)精華內(nèi)容

目錄

<cite id="nuqbe"><li id="nuqbe"></li></cite><sub id="nuqbe"><i id="nuqbe"><tr id="nuqbe"></tr></i></sub>