自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里全模態(tài)Qwen2.5-Omni技術(shù)報告萬字解讀!

人工智能
Qwen 團(tuán)隊最近發(fā)布了一款統(tǒng)一多模態(tài)大模型 Qwen2.5-Omni,開放了 7B 版本的權(quán)重。能夠同時處理文本、圖像、音頻和視頻輸入,并以流式方式生成文本和語音響應(yīng)。

Qwen 團(tuán)隊最近發(fā)布了一款統(tǒng)一多模態(tài)大模型 Qwen2.5-Omni,開放了 7B 版本的權(quán)重。能夠同時處理文本、圖像、音頻和視頻輸入,并以流式方式生成文本和語音響應(yīng)。下面來詳細(xì)看下:

開源地址:

體驗地址:

研究動機:在日常生活中,人類能夠同時感知視覺和聽覺信息,并通過大腦處理這些信息后,以書寫、說話或使用工具等方式進(jìn)行反饋,從而與世界上的各種生物進(jìn)行信息交流并展現(xiàn)智能?,F(xiàn)有大模型多為單模態(tài)(如 LLM)或雙模態(tài)(如 LVLM),缺乏統(tǒng)一的多模態(tài)實時交互能力,將聽覺、視覺等不同模態(tài)與語言模型高效地統(tǒng)一起來,并以類似人類交流的方式(如同時提供文本和語音流式響應(yīng))進(jìn)行輸出,仍然是一個重大挑戰(zhàn)。

開發(fā)統(tǒng)一且智能的全能模型(omni-model)需要仔細(xì)考慮幾個關(guān)鍵因素。首先,必須設(shè)計一種系統(tǒng)性的方法,聯(lián)合訓(xùn)練文本、圖像、視頻和音頻等多種模態(tài),以促進(jìn)它們之間的相互增強。這種對齊對于視頻內(nèi)容尤為重要,因為需要同步音頻和視覺信號的時間特征。其次,必須管理不同模態(tài)輸出之間的潛在干擾,確保文本和語音標(biāo)記等輸出的訓(xùn)練過程不會相互干擾。最后,需要探索支持實時理解多模態(tài)信息并實現(xiàn)高效音頻流輸出的架構(gòu)設(shè)計,從而降低初始延遲。

對于上述問題,阿里提出Qwen2.5-Omni,一個統(tǒng)一的多模態(tài)模型,能夠同時處理文本、圖像、音頻和視頻等多種模態(tài),并以流式的方式同時生成文本和自然語音響應(yīng)。

核心創(chuàng)新:

  • 創(chuàng)新的時序?qū)R多模態(tài)RoPE(TMRoPE):提出了一種新穎的位置嵌入算法,通過將音頻和視頻幀以交錯的方式組織,并顯式地引入時間信息,實現(xiàn)了音頻和視頻的時序?qū)R,增強了多模態(tài)信息的融合。
  • Thinker-Talker架構(gòu):設(shè)計了一種用于實時理解和語音生成的架構(gòu)。其中,Thinker負(fù)責(zé)文本生成,Talker則利用Thinker的高級表示直接生成語音流,兩者在訓(xùn)練和推理過程中均以端到端的方式聯(lián)合進(jìn)行,有效避免了不同模態(tài)輸出之間的干擾。
  • 流式處理與低延遲設(shè)計:通過采用塊狀處理方法對音頻和視覺編碼器進(jìn)行改進(jìn),并引入滑動窗口的DiT模型,實現(xiàn)了音頻和視頻信息的流式處理,減少了初始包延遲,支持實時的多模態(tài)理解和語音生成。

圖片


下面來詳細(xì)看下:

1、方法介紹

Thinker-Talker架構(gòu)

Omni模型采用Thinker-Talker架構(gòu),這種架構(gòu)的設(shè)計靈感來源于人類大腦和嘴巴的功能分工:Thinker(類似大腦)是一個Transformer解碼器,配備了用于信息提取的音頻和圖像編碼器,負(fù)責(zé)處理和理解來自文本、音頻和視頻模態(tài)的輸入,并生成高層表征及相應(yīng)的文本;而Talker(類似嘴巴)是一個雙軌自回歸Transformer解碼器,其設(shè)計靈感來源于Mini-Omni,則負(fù)責(zé)將Thinker生成的高層表征和文本轉(zhuǎn)化為語音輸出。兩者在訓(xùn)練和推理過程中均以端到端的方式聯(lián)合進(jìn)行,有效避免了不同模態(tài)輸出之間的干擾。

圖片

感知(模態(tài)理解)

文本處理

使用Qwen分詞器(基于字節(jié)級字節(jié)對編碼,BPE),詞匯表包含151,643個常規(guī)標(biāo)記。文本被轉(zhuǎn)換為一系列隱藏表征,用于后續(xù)的處理和生成。

音頻處理

音頻輸入被重采樣至16kHz,并轉(zhuǎn)換為128通道的梅爾頻譜圖,窗口大小為25毫秒,跳躍長度為10毫秒。使用Qwen2-Audio的音頻編碼器,每幀音頻表征對應(yīng)原始音頻信號中40毫秒的片段。下面是對這一過程的詳細(xì)解讀:

  • 重采樣至16kHz:音頻輸入被重采樣至16kHz,采樣率決定了音頻信號在數(shù)字形式下的時間分辨率,16kHz是一個常見的采樣率,能夠較好地平衡計算效率和音頻質(zhì)量。通過重采樣,可以確保不同來源的音頻數(shù)據(jù)具有一致的時間分辨率,便于后續(xù)處理
  • 轉(zhuǎn)換為128通道的梅爾頻譜圖:梅爾頻譜圖是一種將音頻信號的頻譜信息以梅爾頻率尺度表示的特征圖。梅爾頻率尺度更接近人類聽覺系統(tǒng)的感知方式,能夠更好地反映音頻信號中的重要頻率信息。128通道意味著將音頻信號的頻譜劃分為128個頻帶,每個頻帶對應(yīng)一個通道,從而能夠更細(xì)致地捕捉音頻的頻率特征。這種轉(zhuǎn)換過程通常包括短時傅里葉變換(STFT)等步驟,將時域信號轉(zhuǎn)換為頻域信號,并在梅爾頻率尺度上進(jìn)行量化。
  • 窗口大小為25毫秒,跳躍長度為10毫秒:在進(jìn)行短時傅里葉變換時,窗口大小決定了每次分析音頻信號的時間范圍,而跳躍長度決定了相鄰窗口之間的重疊程度。窗口大小為25毫秒意味著每次分析25毫秒內(nèi)的音頻信號,而跳躍長度為10毫秒則表示相鄰窗口之間有15毫秒的重疊。這種設(shè)置能夠在一定程度上平衡時間分辨率和頻率分辨率,使得模型能夠捕捉到音頻信號中的短時變化和頻率信息
  • 使用Qwen2-Audio的音頻編碼器:該編碼器對轉(zhuǎn)換后的梅爾頻譜圖進(jìn)行進(jìn)一步處理,提取音頻的高級特征表示。每幀音頻表征對應(yīng)原始音頻信號中40毫秒的片段,這意味著編碼器將每40毫秒的音頻信息壓縮為一個特征向量。這種壓縮過程能夠保留音頻的關(guān)鍵信息,同時減少數(shù)據(jù)量,便于模型進(jìn)行高效的處理和理解。

圖像和視頻處理

使用Qwen2.5-VL的視覺編碼器,基于Vision Transformer(ViT)模型,參數(shù)量約為6.75億。視覺編碼器采用混合訓(xùn)練策略,結(jié)合了圖像和視頻數(shù)據(jù),確保其在圖像理解和視頻理解方面的熟練度。視頻采用動態(tài)幀率采樣,以適應(yīng)音頻采樣率并盡可能完整地保留視頻信息。

  • 混合訓(xùn)練策略:視覺編碼器采用混合訓(xùn)練策略,結(jié)合了圖像和視頻數(shù)據(jù)。這意味著編碼器在訓(xùn)練過程中同時接觸到靜態(tài)圖像和動態(tài)視頻,從而能夠?qū)W習(xí)到圖像和視頻中的共同特征和差異特征。這種混合訓(xùn)練策略有助于提高模型在圖像理解和視頻理解方面的熟練度,使其能夠更好地處理多種視覺任務(wù)
  • 視頻采用動態(tài)幀率采樣:為了適應(yīng)音頻采樣率(40毫秒每幀)并盡可能完整地保留視頻信息,視頻采用動態(tài)幀率采樣。動態(tài)幀率采樣意味著根據(jù)視頻內(nèi)容的實際時間長度和重要性,靈活調(diào)整視頻的幀率。這樣可以在保證音頻和視頻時間對齊的同時,避免因固定幀率導(dǎo)致的信息丟失或冗余。例如,在視頻內(nèi)容變化較快的部分,可以適當(dāng)提高幀率以保留更多細(xì)節(jié);而在內(nèi)容變化較慢的部分,則可以降低幀率以減少冗余信息。

時間對齊多模態(tài)旋轉(zhuǎn)位置嵌入(TMRoPE)

圖片

在多模態(tài)模型中,處理視頻和音頻輸入時,需要考慮以下關(guān)鍵問題:

  • 時間對齊:視頻中的視覺信息和音頻信息在時間上是同步的,因此需要一種方法來確保模型能夠理解這種時間上的對齊關(guān)系。
  • 位置信息:不同模態(tài)(文本、圖像、音頻)的位置信息需要被有效地編碼,以便模型能夠區(qū)分不同模態(tài)的輸入并理解它們之間的關(guān)系。
  • 動態(tài)幀率:視頻的幀率可能不固定,因此需要一種靈活的方法來處理不同幀率的視頻。

為了解決這些問題,本文提出了TMRoPE,這是一種結(jié)合了絕對時間位置的多模態(tài)旋轉(zhuǎn)位置嵌入(M-RoPE)方法。

TMRoPE的核心思想是將多模態(tài)輸入的3維位置信息(時間、高度、寬度)進(jìn)行編碼,并引入絕對時間位置信息。具體實現(xiàn)如下:

位置信息的分解

TMRoPE將原始的旋轉(zhuǎn)位置嵌入(RoPE)分解為三個維度:時間維度:用于表示時間信息;高度維度:用于表示圖像或視頻幀中的垂直位置;寬度維度:用于表示圖像或視頻幀中的水平位置。

不同模態(tài)的位置編碼

  • 文本輸入:時間、高度和寬度三個部分使用相同的位置ID,因此TMRoPE在功能上等同于一維旋轉(zhuǎn)位置嵌入(1D-RoPE)。
  • 音頻輸入:時間維度使用相同的位置ID,并引入絕對時間位置編碼,每個時間ID對應(yīng)40毫秒。
  • 圖像輸入:時間ID保持不變,而高度和寬度部分根據(jù)標(biāo)記在圖像中的位置分配不同的ID。
  • 視頻輸入:視頻被視為一系列圖像,每幀的時間ID遞增,高度和寬度部分的ID分配方式與圖像相同。由于視頻的幀率不固定,作者根據(jù)每幀對應(yīng)的實際時間動態(tài)調(diào)整幀間的時間ID,確保一個時間ID對應(yīng)40毫秒。

多模態(tài)輸入的位置編號

當(dāng)模型輸入包含多種模態(tài)時,每種模態(tài)的位置編號從前一種模態(tài)的最大位置ID加1開始初始化。這種初始化方式確保了不同模態(tài)的位置信息不會相互沖突,同時保留了它們之間的相對順序。

時間交錯方法

為了使模型能夠同時接收視覺和聽覺信息,作者提出了一種特殊設(shè)計,稱為時間交錯方法。具體步驟如下:

  1. 按時間分割:將視頻中的表征按實際時間每2秒分割為一個塊。
  2. 交錯排列:在每個2秒的時間塊內(nèi),將視覺表征放在前面,音頻表征放在后面,從而實現(xiàn)視頻和音頻表征的交錯排列。

這種設(shè)計使得模型能夠在處理視頻和音頻輸入時,更好地理解它們之間的時間對齊關(guān)系,同時保留了視覺和聽覺信息的完整性。

生成

文本生成

文本生成由Thinker負(fù)責(zé),其生成邏輯與廣泛使用的大型語言模型(LLMs)基本相同。具體來說:

  1. 基于詞匯表的概率分布:Thinker通過自回歸采樣生成文本。這意味著在生成每個詞時,模型會基于之前生成的詞序列來計算下一個詞的概率分布。例如,假設(shè)已經(jīng)生成了詞序列“今天天氣很”,模型會計算下一個詞的概率分布,如“好”、“熱”、“冷”等,并從中選擇一個詞繼續(xù)生成。
  2. 重復(fù)懲罰(Repetition Penalty):為了避免生成重復(fù)的內(nèi)容,模型可以使用重復(fù)懲罰技術(shù)。如果某個詞在生成過程中已經(jīng)出現(xiàn)過多次,模型會降低其再次出現(xiàn)的概率。例如,如果模型已經(jīng)生成了“今天天氣很好,今天天氣很好”,重復(fù)懲罰會使得“今天”和“天氣”等詞的生成概率降低,從而減少重復(fù)。
  3. Top-p采樣:為了增加生成文本的多樣性,模型可以使用Top-p采樣技術(shù)。這種方法不是直接選擇概率最高的詞,而是從概率最高的前p%的詞中隨機選擇一個詞。例如,假設(shè)模型計算出下一個詞的概率分布后,選擇概率最高的前10%的詞(如“好”、“熱”、“冷”等),然后從這10%的詞中隨機選擇一個詞繼續(xù)生成。這可以避免模型總是生成相同的詞,增加生成文本的多樣性。

語音生成

語音生成由Talker負(fù)責(zé),Talker接收來自Thinker的高層表征以及采樣的文本標(biāo)記嵌入。具體過程如下:

  1. 高維表征和離散采樣標(biāo)記的整合:Talker接收來自Thinker的高維表征,這些表征隱式地傳遞了文本的語義信息,包括語調(diào)和態(tài)度等。此外,Thinker的表征主要表達(dá)語義空間的相似性,而非語音相似性。由于語音信號的復(fù)雜性,即使語義相似的文本也可能對應(yīng)多種不同的語音特征。離散采樣標(biāo)記通過提供明確的文本標(biāo)記,幫助模型在生成語音時消除這種不確定性。
  2. 高效的語音編解碼器:為了高效表示語音的關(guān)鍵信息,本文設(shè)計了一種名為quent-tts-tokenizer的編解碼器。該編解碼器能夠高效表示語音的關(guān)鍵信息,并可通過因果音頻解碼器流式解碼為語音。在接收信息后,Talker開始自回歸生成音頻標(biāo)記和文本標(biāo)記。語音生成不需要與文本在單詞級別或時間戳級別對齊,這顯著簡化了訓(xùn)練數(shù)據(jù)和推理過程的要求。

關(guān)于離散采樣標(biāo)記的解讀

離散采樣標(biāo)記(Discrete Sampling Tokens)的作用是提供明確的文本標(biāo)記,幫助模型在生成語音時消除不確定性。以下是對這句話的詳細(xì)解讀:

1. 不確定性來源

在語音生成任務(wù)中,一個主要的挑戰(zhàn)是文本內(nèi)容和語音特征之間的映射關(guān)系并不是一一對應(yīng)的。具體來說:

  • 語義相似性:不同的單詞或短語可能具有相似的語義,但它們的語音特征可能完全不同。例如,“cat”和“kitten”在語義上都與“貓”有關(guān),但它們的發(fā)音差異很大。
  • 語音多樣性:即使是相同的文本內(nèi)容,也可以用不同的語音特征來表達(dá),例如不同的語調(diào)、語速、情感等。例如,“今天天氣很好”這句話可以用歡快的語調(diào)說,也可以用平淡的語調(diào)說。

這種映射關(guān)系的多樣性導(dǎo)致了生成語音時的不確定性。如果模型只依賴于語義信息(如高維表征),它可能無法準(zhǔn)確地確定應(yīng)該生成哪種語音特征。

2. 離散采樣標(biāo)記的作用

離散采樣標(biāo)記通過提供明確的文本標(biāo)記,幫助模型在生成語音時消除這種不確定性。具體來說:

  • 明確的文本標(biāo)記:離散采樣標(biāo)記是將文本內(nèi)容轉(zhuǎn)換為一系列離散的符號(tokens),這些符號直接對應(yīng)于文本中的單詞或子詞。例如,句子“今天天氣很好”可以被標(biāo)記化為[今天, 天氣, 很, 好]。
  • 消除不確定性:這些離散的標(biāo)記為模型提供了明確的指導(dǎo),告訴模型在生成語音時應(yīng)該對應(yīng)哪些具體的單詞或短語。通過這種方式,模型可以更準(zhǔn)確地選擇與這些標(biāo)記對應(yīng)的語音特征,從而減少生成語音時的不確定性。

3. 明確的文本標(biāo)記如何幫助模型

  • 語義到語音的映射:離散采樣標(biāo)記幫助模型將語義信息(高維表征)與具體的語音特征聯(lián)系起來。例如,如果模型知道當(dāng)前生成的標(biāo)記是“今天”,它可以根據(jù)這個標(biāo)記選擇與“今天”對應(yīng)的語音特征。
  • 減少歧義:離散采樣標(biāo)記減少了語音生成中的歧義。例如,如果模型只知道當(dāng)前的語義是“貓”,它可能無法確定是生成“cat”還是“kitten”的語音。但如果它知道具體的標(biāo)記是“cat”,它就可以準(zhǔn)確地生成“cat”的語音。
  • 支持流式生成:離散采樣標(biāo)記使得語音生成能夠以流式的方式進(jìn)行。模型可以根據(jù)當(dāng)前生成的標(biāo)記逐步生成語音信號,而不需要等待整個文本生成完成。這使得語音生成更加高效,能夠?qū)崟r響應(yīng)用戶的輸入。

4. 具體例子

假設(shè)模型需要生成句子“今天天氣很好”的語音。以下是離散采樣標(biāo)記如何幫助模型生成語音的過程:

  1. 文本標(biāo)記化:輸入文本:“今天天氣很好”,標(biāo)記化結(jié)果:[今天, 天氣, 很, 好]
  2. 生成離散采樣標(biāo)記:Thinker生成的高維表征隱式地傳遞了語義信息,例如“今天”表示的是今天的日期,“天氣”表示的是氣象條件等。離散采樣標(biāo)記[今天, 天氣, 很, 好]為模型提供了明確的文本信息。
  3. 語音生成:Talker接收高維表征和離散采樣標(biāo)記。對于每個標(biāo)記,Talker根據(jù)高維表征和標(biāo)記信息生成對應(yīng)的語音特征。例如:
  • “今天”對應(yīng)語音特征[語音特征1]
  • “天氣”對應(yīng)語音特征[語音特征2]
  • “很”對應(yīng)語音特征[語音特征3]
  • “好”對應(yīng)語音特征[語音特征4]
  1. 流式解碼:Talker使用流式解碼器逐步生成語音信號。每個語音特征被轉(zhuǎn)換為音頻信號,最終生成完整的語音。

流式設(shè)計

在流式音頻和視頻交互的場景中,初始數(shù)據(jù)包延遲是衡量系統(tǒng)性能的關(guān)鍵指標(biāo)。延遲可能由以下因素導(dǎo)致:

  1. 多模態(tài)信息輸入處理導(dǎo)致的延遲:處理多種模態(tài)(文本、音頻、圖像、視頻)的輸入需要時間和計算資源。
  2. 從接收到第一個文本輸入到輸出第一個語音標(biāo)記之間的延遲:模型需要時間來處理輸入并生成第一個語音標(biāo)記。
  3. 將第一段語音轉(zhuǎn)換為音頻的延遲:生成的語音標(biāo)記需要進(jìn)一步處理才能轉(zhuǎn)換為可播放的音頻信號。
  4. 架構(gòu)本身的固有延遲:模型的規(guī)模、計算量(FLOPs)等因素也會影響延遲。

為了降低這些延遲,Qwen2.5-Omni在算法和架構(gòu)上進(jìn)行了多項改進(jìn)。

  • 支持預(yù)填充
    分塊預(yù)填充(Chunked-prefills)是現(xiàn)代推理框架中廣泛采用的機制,用于提高處理效率。Qwen2.5-Omni通過以下方式支持這一機制:
  1. 音頻編碼器的分塊注意力:傳統(tǒng)的音頻編碼器通常對整個音頻進(jìn)行全局注意力處理,這在處理長音頻時會導(dǎo)致較高的延遲。Qwen2.5-Omni將音頻編碼器的全局注意力改為每2秒為一個塊的分塊注意力。這樣可以減少每次處理的數(shù)據(jù)量,從而降低延遲,減少處理時間。
  2. 視覺編碼器的優(yōu)化:視覺編碼器使用Flash Attention實現(xiàn)高效訓(xùn)練和推理,并通過簡單的MLP層將相鄰的2×2標(biāo)記合并為單個標(biāo)記。補丁大小設(shè)置為14,這使得不同分辨率的圖像可以打包為一個序列。這種合并操作減少了標(biāo)記的數(shù)量,從而減少了計算量。
  • 流式編解碼生成
    為了實現(xiàn)音頻的流式生成,尤其是長序列的流式生成,Qwen2.5-Omni提出了一種滑動窗口塊注意力機制,限制當(dāng)前標(biāo)記僅能訪問有限的上下文。具體實現(xiàn)如下:
  • 滑動窗口塊注意力機制:將DiT(Diffusion-based Inverse Text-to-Speech)模型的感受野限制為4個塊,包括2個回溯塊和1個前瞻塊。這種限制使得模型在生成當(dāng)前標(biāo)記時,只能訪問有限的上下文信息,從而減少了計算量和延遲。
  • 分塊生成:在解碼過程中,將輸入編碼分組為塊,輸入編碼通過Flow-Matching轉(zhuǎn)換為梅爾頻譜圖,隨后通過改進(jìn)的BigVGAN將生成的梅爾頻譜圖重建為波形。

圖片

2、預(yù)訓(xùn)練

Qwen2.5-Omni的預(yù)訓(xùn)練目標(biāo)是:

  • 增強語義理解:通過多模態(tài)數(shù)據(jù)的訓(xùn)練,使模型能夠更好地理解文本、音頻、圖像和視頻中的語義信息。
  • 提高泛化能力:通過多樣化的數(shù)據(jù)和任務(wù),使模型能夠適應(yīng)不同的應(yīng)用場景和任務(wù)。
  • 支持復(fù)雜長序列數(shù)據(jù):通過長序列數(shù)據(jù)的訓(xùn)練,使模型能夠處理復(fù)雜的多模態(tài)交互任務(wù)。

第一階段:凍結(jié)LLM參數(shù),訓(xùn)練視覺和音頻編碼器

目標(biāo):專注于訓(xùn)練視覺編碼器和音頻編碼器,增強LLM內(nèi)部的語義理解能力。

數(shù)據(jù):使用大量音頻-文本和圖像-文本對數(shù)據(jù)。

方法:這一階段,LLM的參數(shù)保持不變,只訓(xùn)練視覺和音頻編碼器。視覺編碼器基于Qwen2.5-VL初始化,音頻編碼器基于Whisper-large-v3初始化。訓(xùn)練時,兩個編碼器在凍結(jié)的LLM上分別訓(xùn)練,都先訓(xùn)練各自的適配器,再訓(xùn)練編碼器本身。這一基礎(chǔ)訓(xùn)練對建立視覺-文本和音頻-文本的核心關(guān)聯(lián)與對齊至關(guān)重要。

第二階段:解凍所有參數(shù),全面訓(xùn)練

目標(biāo):通過更廣泛的多模態(tài)數(shù)據(jù)進(jìn)行更全面的訓(xùn)練,增強模型的多模態(tài)理解能力。

數(shù)據(jù)

  • 圖像和視頻相關(guān)數(shù)據(jù):增加8000億token。
  • 音頻相關(guān)數(shù)據(jù):增加3000億token。
  • 視頻-音頻相關(guān)數(shù)據(jù):增加1000億token。

方法:在這一階段,LLM、視覺編碼器和音頻編碼器的所有參數(shù)都參與訓(xùn)練。引入更多混合多模態(tài)數(shù)據(jù)和多樣化任務(wù),增強聽覺、視覺和文本信息之間的交互與深度理解。

第三階段:長序列數(shù)據(jù)訓(xùn)練

目標(biāo):增強模型對復(fù)雜長序列數(shù)據(jù)的理解能力。

數(shù)據(jù):使用32k序列長度的數(shù)據(jù)。

方法:在前兩個階段,最大token長度限制為8192,以提高訓(xùn)練效率。在這一階段,引入長音頻和長視頻數(shù)據(jù),將原始文本、音頻、圖像和視頻數(shù)據(jù)擴(kuò)展到32,768 token進(jìn)行訓(xùn)練。通過長序列數(shù)據(jù)的訓(xùn)練,模型能夠更好地處理復(fù)雜的多模態(tài)交互任務(wù),如長視頻理解和長音頻生成。

3、后訓(xùn)練

圖片

  • <|im_start|> 和 <|im_end|>:表示一個對話輪次的開始和結(jié)束。
  • <|vision_start|> 和 <|vision_end|>:表示視頻或圖像輸入的開始和結(jié)束,括號內(nèi)是視頻或圖像的描述。
  • user 和 assistant:分別表示用戶和助手的角色,用戶提出問題,助手提供回答。

Thinker

在后訓(xùn)練階段,Thinker使用ChatML格式的指令跟隨數(shù)據(jù)進(jìn)行指令微調(diào)。具體來說:

  • 數(shù)據(jù)集:包含純文本對話數(shù)據(jù)、視覺模態(tài)對話數(shù)據(jù)、音頻模態(tài)對話數(shù)據(jù)和混合模態(tài)對話數(shù)據(jù)。
  • 目標(biāo):通過指令微調(diào),使Thinker能夠更好地理解和執(zhí)行自然語言指令,生成準(zhǔn)確的文本響應(yīng)。

Talker

第一階段:上下文延續(xù)訓(xùn)練

目標(biāo):訓(xùn)練Talker學(xué)習(xí)上下文延續(xù),即根據(jù)上下文生成自然流暢的語音。

方法:使用下一個token預(yù)測任務(wù),利用包含多模態(tài)上下文和語音響應(yīng)的大規(guī)模對話數(shù)據(jù)集進(jìn)行訓(xùn)練。Talker學(xué)習(xí)建立從語義表示到語音的單調(diào)映射,同時學(xué)習(xí)根據(jù)上下文表達(dá)具有多樣化屬性的語音,如韻律、情感和口音。

音色解耦技術(shù):防止模型將特定聲音與不常見的文本模式關(guān)聯(lián),提高語音生成的多樣性和適應(yīng)性。

第二階段:強化學(xué)習(xí)(DPO)

目標(biāo):提高語音生成的穩(wěn)定性,減少模型幻覺。

方法:使用DPO(Direct Preference Optimization)技術(shù),通過強化學(xué)習(xí)優(yōu)化語音生成。具體來說,對于每個帶有參考語音的請求和響應(yīng)文本對,構(gòu)建一個包含三元組數(shù)據(jù)的數(shù)據(jù)集D,根據(jù)詞錯誤率(WER)和標(biāo)點停頓錯誤率對樣本進(jìn)行排序,選擇獎勵分?jǐn)?shù)高的樣本進(jìn)行訓(xùn)練。

圖片

第三階段:說話人微調(diào)

目標(biāo):使Talker能夠采用特定聲音并提高語音響應(yīng)的自然度。

方法:在基礎(chǔ)模型上進(jìn)行說話人微調(diào),使模型能夠生成特定說話人的語音,提高語音的自然度和可控性。

4、X→文本評估

這一部分評估了Qwen2.5-Omni在理解各種多模態(tài)輸入(文本、音頻、圖像和視頻)并生成文本響應(yīng)的能力。

文本→文本

評估集中在通用評估、數(shù)學(xué)與科學(xué)能力以及編程能力三個方面,使用了以下基準(zhǔn):

  • 通用評估:MMLU-Pro、MMLU-redux、Livebench0803
  • 數(shù)學(xué)與科學(xué):GPQA、GSM8K、MATH
  • 編程能力:HumanEval、MBPP、MultiPL-E、LiveCodeBench

結(jié)果:Qwen2.5-Omni在大多數(shù)基準(zhǔn)測試中優(yōu)于Qwen2-7B,展現(xiàn)了卓越的文本生成能力。

圖片

音頻→文本

評估包括音頻理解、音頻推理和語音聊天三個方面,處理音頻輸入并生成文本響應(yīng)的能力,使用了以下基準(zhǔn):

  • 自動語音識別(ASR):Fleurs_zh、CommonVoice_en、CommonVoice_zh、CoVoST2_en-de、CoVoST2_zh-en
  • 語音到文本翻譯(S2TT):同上
  • 語音實體識別(SER):Meld
  • 人聲分類(VSC):VocalSound
  • 音樂理解:MusicCaps
  • 音頻推理:MMAU
  • 語音聊天:VoiceBench

結(jié)果:Qwen2.5-Omni在音頻理解任務(wù)上達(dá)到或超越了其他最先進(jìn)方法的性能。此外,在VoiceBench上,Qwen2.5-Omni取得了74.12的平均分,顯著超越了其他同類規(guī)模的音頻語言模型和Omni模型。

圖片

圖片

圖片

圖像→文本

評估關(guān)注大學(xué)級問題、數(shù)學(xué)、通用視覺問答和OCR相關(guān)任務(wù),使用了以下基準(zhǔn):

  • 大學(xué)級問題:MMMU、MMMU-Pro
  • 數(shù)學(xué):MathVista、MathVision
  • 通用視覺問答:MMBench-V1.1、MMVet、MMStar、MME、MuirBench、CRPE、RealWorldQA、MMERealWorld、MM-MT-Bench
  • OCR相關(guān)任務(wù):AI2D、TextVQA、DocVQA、ChartQA、OCRBench_v2

結(jié)果:Qwen2.5-Omni的表現(xiàn)與Qwen2.5-VL-7B相當(dāng),在多個基準(zhǔn)測試中優(yōu)于其他開源omni模型。

圖片

視頻→文本

評估Qwen2.5-Omni在處理視頻輸入并生成文本響應(yīng)的能力,使用了以下基準(zhǔn):Video-MME、MVBench、EgoSchema

結(jié)果:Qwen2.5-Omni在所有最先進(jìn)的開源omni模型和GPT-4o-Mini上都表現(xiàn)優(yōu)異,與Qwen2.5-VL-7B相比也取得了相當(dāng)或更好的結(jié)果。

圖片

多模態(tài)→文本

評估Qwen2.5-Omni在處理多模態(tài)輸入(結(jié)合文本、音頻、圖像和視頻)并生成文本響應(yīng)的能力,使用OmniBench基準(zhǔn),結(jié)果顯示,Qwen2.5-Omni在OmniBench上取得了最先進(jìn)的性能,大幅領(lǐng)先其他Omni模型。

圖片

5、X→語音評估

由于缺乏相關(guān)的標(biāo)準(zhǔn)評估方法,X→語音評估主要關(guān)注了兩個方面:零樣本語音生成(Zero-shot Speech Generation)和單說話人語音生成(Single-Speaker Speech Generation)。

零樣本語音生成(Zero-shot Speech Generation)

零樣本語音生成是指在沒有針對特定說話人進(jìn)行微調(diào)的情況下,模型能夠生成語音的能力。這一部分的評估主要關(guān)注兩個指標(biāo):

  • 內(nèi)容一致性(Content Consistency):通過詞錯誤率(WER)來衡量生成語音與目標(biāo)文本的一致性。
  • 說話人相似度(Speaker Similarity):衡量生成語音與目標(biāo)說話人的相似度。

評估方法:使用SEED數(shù)據(jù)集進(jìn)行評估。將Qwen2.5-Omni與最先進(jìn)的零樣本TTS系統(tǒng)進(jìn)行比較,包括Seed-TTSICL、Seed-TTSRL、MaskGCT、E2 TTS、F5-TTS、CosyVoice 2等。

結(jié)果顯示,Qwen2.5-Omni在零樣本語音生成任務(wù)上表現(xiàn)出色,通過上下文學(xué)習(xí)(ICL)和強化學(xué)習(xí)(RL)優(yōu)化,顯著提高了生成語音的內(nèi)容一致性和說話人相似度。

圖片

單說話人語音生成(Single-Speaker Speech Generation)

單說話人語音生成是指在對特定說話人進(jìn)行微調(diào)后,模型能夠生成高質(zhì)量語音的能力。這一部分的評估主要關(guān)注:

  • 內(nèi)容一致性(Content Consistency):通過詞錯誤率(WER)來衡量生成語音與目標(biāo)文本的一致性。
  • 自然度(Naturalness):通過主觀評估(如MOS評分)來衡量生成語音的自然度。

評估方法:使用SEED數(shù)據(jù)集進(jìn)行評估。比較說話人微調(diào)前后的Qwen2.5-Omni模型以及人類錄音。

結(jié)果顯示,經(jīng)過說話人微調(diào)的Qwen2.5-Omni在單說話人語音生成任務(wù)上表現(xiàn)出色,不僅在內(nèi)容一致性上接近人類水平,而且在自然度上也達(dá)到了接近人類水平的性能。

圖片


6、總結(jié)

Qwen2.5-Omni的突破性進(jìn)展標(biāo)志著AI向"全能選手"時代邁出了關(guān)鍵一步,其技術(shù)實現(xiàn)和設(shè)計理念深刻反映了多模態(tài)大模型的三大發(fā)展趨勢:

  1. 模態(tài)融合的深度突破
    通過Thinker-Talker架構(gòu)的創(chuàng)新分工(Thinker專注語義理解,Talker專精語音生成),配合TMRoPE位置編碼技術(shù),模型實現(xiàn)了跨模態(tài)信息的毫秒級同步。這種"分工明確+一體化訓(xùn)練"的策略,使模型在同時處理視頻幀(40ms/幀)和音頻流時仍能保持時序一致性,解決了傳統(tǒng)多模態(tài)模型"各自為政"的核心痛點。
  2. 交互范式的革命性升級
    模型在VoiceBench 74.12分的表現(xiàn)和1.42%的中文WER,證明了其實時語音交互已達(dá)實用水平。特別是32K長序列支持能力,使其可處理30分鐘連續(xù)對話(如醫(yī)療問診場景),配合滑動窗口DiT技術(shù)將端到端延遲降低40%,為"邊說邊想"的自然交互提供了技術(shù)基礎(chǔ)。
  3. 技術(shù)落地的臨界點突破
    從預(yù)訓(xùn)練階段的漸進(jìn)式解凍策略(先單模態(tài)適配器后全參數(shù)訓(xùn)練),到后訓(xùn)練階段的三階段語音優(yōu)化(DPO強化學(xué)習(xí)使WER再降15%),形成了一套可復(fù)用的多模態(tài)訓(xùn)練范式。在OmniBench 56.13%的跨模態(tài)理解準(zhǔn)確率,以及超越專業(yè)TTS系統(tǒng)的語音生成質(zhì)量(NMOS 4.51/5),標(biāo)志著技術(shù)成熟度已達(dá)到商業(yè)化門檻。

這種技術(shù)演進(jìn)正在重塑人機交互邊界:當(dāng)設(shè)備能同步理解用戶展示的CT影像(MMBench 81.8%準(zhǔn)確率)、實時翻譯會議視頻(CoVoST2 en-zh BLEU 30.2)、并給出帶情感語調(diào)的分析報告(SEED相似度0.754),傳統(tǒng)的"單一模態(tài)+分步處理"模式將被徹底顛覆。值得注意的是,該模型在保持7B參數(shù)規(guī)模下的高效表現(xiàn),讓我們對下一代AI產(chǎn)品充滿了無限想象。

責(zé)任編輯:龐桂玉 來源: 小白學(xué)AI算法
相關(guān)推薦

2025-03-27 09:40:59

2025-03-27 10:04:36

阿里云通義千問多模態(tài)

2025-04-22 07:00:00

2025-03-27 12:30:36

2025-02-26 09:44:14

2024-01-11 09:53:31

面試C++

2023-05-16 16:19:04

2025-02-24 08:10:00

2022-01-14 10:19:32

智能技術(shù)汽車

2023-10-31 12:58:00

TypeScriptJavaScript

2021-03-16 08:21:29

Spark系統(tǒng)并行

2025-03-23 22:05:22

2022-02-22 10:03:28

算法汽車雷達(dá)

2018-01-02 09:17:57

2021-11-11 09:27:02

技術(shù)RedisMySQL

2024-07-19 08:34:18

2024-08-13 15:07:20

2023-01-06 08:15:58

StreamAPI接口

2021-10-18 11:58:56

負(fù)載均衡虛擬機

2022-03-24 11:40:01

自動駕駛技術(shù)深度學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號