自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

InternLM-XComposer2.5-OmniLive:用于長期流媒體視頻和音頻交互的綜合多模態(tài)人工智能系統(tǒng) 原創(chuàng)

發(fā)布于 2024-12-31 14:33
瀏覽
0收藏

InternLM-XComposer2.5-OmniLive:用于長期流媒體視頻和音頻交互的綜合多模態(tài)人工智能系統(tǒng)-AI.x社區(qū)

01、概述

隨著人工智能的發(fā)展,構(gòu)建能夠?qū)崟r(shí)感知環(huán)境、進(jìn)行復(fù)雜推理并記憶的系統(tǒng),已成為研究者們追求的目標(biāo)。這不僅要求 AI 系統(tǒng)能處理音頻、視頻和文本等多模態(tài)數(shù)據(jù),還需在動(dòng)態(tài)環(huán)境中模擬人類感知、推理與記憶的協(xié)同能力。然而,現(xiàn)有多模態(tài)大語言模型(MLLMs)在這方面仍存在諸多限制,尤其是在同時(shí)處理任務(wù)時(shí)的效率和可擴(kuò)展性。

為解決這些問題,來自上海人工智能實(shí)驗(yàn)室、中國香港中文大學(xué)、復(fù)旦大學(xué)、中國科技大學(xué)、清華大學(xué)、北京航空航天大學(xué)和商湯集團(tuán)的研究團(tuán)隊(duì)推出了一款創(chuàng)新框架——InternLM-XComposer2.5-OmniLive (IXC2.5-OL)。通過模塊化設(shè)計(jì),該系統(tǒng)將感知、記憶與推理功能解耦,實(shí)現(xiàn)了高效的實(shí)時(shí)多模態(tài)交互,為模擬人類認(rèn)知提供了全新范式。

02、現(xiàn)有系統(tǒng)的局限性

1)感知與推理的割裂

大部分主流模型采用序列到序列的架構(gòu),這種設(shè)計(jì)導(dǎo)致系統(tǒng)在處理多模態(tài)數(shù)據(jù)時(shí),需要在感知和推理間頻繁切換。例如,模型在分析視頻流時(shí)可能會停頓以處理文本任務(wù),類似于“人在觀察時(shí)無法思考”的狀態(tài)。

2)數(shù)據(jù)存儲的低效

當(dāng)前模型依賴擴(kuò)展上下文窗口存儲歷史數(shù)據(jù),但多模態(tài)數(shù)據(jù)(如視頻流和音頻流)會在短時(shí)間內(nèi)生成海量信息,這種方法難以支撐長時(shí)間的數(shù)據(jù)積累。例如,一個(gè)小時(shí)的視頻可能轉(zhuǎn)化為數(shù)百萬個(gè)標(biāo)記,這對存儲和檢索都是巨大的挑戰(zhàn)。

3)模型架構(gòu)的單一性

現(xiàn)有方法如 Mini-Omni 和 VideoLLM-Online,雖然嘗試填補(bǔ)文本與視頻理解之間的鴻溝,但因過度依賴順序處理和有限的記憶整合能力,難以達(dá)到人類級別的認(rèn)知效果。

03、InternLM-XComposer2.5-OmniLive 的創(chuàng)新設(shè)計(jì)

IXC2.5-OL 通過模塊化架構(gòu)模擬人腦,將感知、記憶和推理分解為三個(gè)獨(dú)立但協(xié)同工作的模塊:

  • 流式感知模塊(Streaming Perception Module)
  • 多模態(tài)長時(shí)記憶模塊(Multimodal Long Memory Module)
  • 推理模塊(Reasoning Module)

InternLM-XComposer2.5-OmniLive:用于長期流媒體視頻和音頻交互的綜合多模態(tài)人工智能系統(tǒng)-AI.x社區(qū)

1)流式感知模塊:實(shí)時(shí)數(shù)據(jù)捕獲與編碼

該模塊處理實(shí)時(shí)音頻和視頻流,使用先進(jìn)模型如 Whisper(音頻編碼)和 OpenAI CLIP-L/14(視頻感知)提取高維特征。

  • 任務(wù):捕獲并編碼關(guān)鍵信息,如語音內(nèi)容、環(huán)境音等,直接存入記憶模塊。
  • 應(yīng)用:音視頻會議的實(shí)時(shí)字幕生成、智能監(jiān)控中異常事件識別。

2)多模態(tài)長時(shí)記憶模塊:高效存儲與檢索

此模塊的核心功能是將短期記憶壓縮為高效的長期表示。

  • 方法:通過算法優(yōu)化,能夠?qū)?shù)百萬幀視頻濃縮成緊湊的記憶單元,有效減少存儲成本并提升檢索準(zhǔn)確性。
  • 優(yōu)勢:大幅降低計(jì)算資源的占用,為實(shí)時(shí)交互提供支持。

3)推理模塊:信息檢索與復(fù)雜任務(wù)執(zhí)行

推理模塊通過檢索記憶模塊中的相關(guān)信息,快速完成復(fù)雜任務(wù),如回答用戶問題或執(zhí)行指令。

  • ?特點(diǎn):實(shí)現(xiàn)感知、推理與記憶的同步協(xié)作,避免傳統(tǒng)系統(tǒng)中各模塊割裂運(yùn)行的效率低下問題。
  • 應(yīng)用:智能問答系統(tǒng)、實(shí)時(shí)決策支持。?

04、性能測試與研究成果

InternLM-XComposer2.5-OmniLive:用于長期流媒體視頻和音頻交互的綜合多模態(tài)人工智能系統(tǒng)-AI.x社區(qū)

1)卓越的基準(zhǔn)測試成績

IXC2.5-OL 在多項(xiàng)國際權(quán)威測試中表現(xiàn)出色:

  • 音頻處理

     a. 在 Wenetspeech 中文測試集上,語音識別的詞錯(cuò)誤率(WER)為 7.8%,遠(yuǎn)超 VITA 和 Mini-Omni。

     b. 在 LibriSpeech 英文基準(zhǔn)上,“清晰”環(huán)境下的 WER 為 2.5%,而在噪聲環(huán)境中也達(dá)到了 9.2% 的優(yōu)秀成績。

  • 視頻處理
  • 在 MLVU 和 StreamingBench 的視頻推理與異常識別測試中,分別取得了 66.2% 和 73.79% 的評分,創(chuàng)下行業(yè)新高。

2)高效的多模態(tài)處理能力

流式感知模塊通過壓縮和記憶機(jī)制,實(shí)現(xiàn)了對多模態(tài)數(shù)據(jù)的實(shí)時(shí)處理。

系統(tǒng)能夠同時(shí)處理數(shù)百萬標(biāo)記,檢索速度快且數(shù)據(jù)損失率低,適合需要長期交互的動(dòng)態(tài)環(huán)境。

3)開放性與易用性

研究團(tuán)隊(duì)已將全部代碼、模型及推理框架公開,開發(fā)者可以快速集成并根據(jù)實(shí)際需求進(jìn)行優(yōu)化。

05、實(shí)際應(yīng)用場景

1)智能監(jiān)控與異常檢測

IXC2.5-OL 的實(shí)時(shí)視頻處理能力,適用于智能監(jiān)控系統(tǒng)中異常事件的自動(dòng)識別,如公共場所的行為異常分析。

2)智能會議助手

通過實(shí)時(shí)感知音頻與視頻流,該框架可為企業(yè)提供智能會議助手服務(wù),包括實(shí)時(shí)記錄、摘要生成以及任務(wù)提醒。

3)教育與學(xué)習(xí)

在在線教育中,IXC2.5-OL 可作為虛擬導(dǎo)師,實(shí)時(shí)分析學(xué)習(xí)者的行為反饋并調(diào)整教學(xué)策略,同時(shí)記錄學(xué)習(xí)數(shù)據(jù)以優(yōu)化課程內(nèi)容。

4)醫(yī)療輔助診斷

長時(shí)記憶模塊能夠存儲并快速檢索患者的歷史病歷數(shù)據(jù),結(jié)合實(shí)時(shí)感知與推理功能,輔助醫(yī)生做出準(zhǔn)確診斷。

06、結(jié)語

IXC2.5-OL 的模塊化設(shè)計(jì)從本質(zhì)上解決了傳統(tǒng)系統(tǒng)的諸多局限:

  • 感知、記憶與推理的分工協(xié)作:模擬人腦的處理方式,確保了系統(tǒng)的高效性與可擴(kuò)展性。
  • 實(shí)時(shí)多模態(tài)交互:實(shí)現(xiàn)了音頻、視頻和文本的同步處理,為動(dòng)態(tài)環(huán)境中的復(fù)雜應(yīng)用提供了解決方案。
  • 高效存儲與檢索:通過記憶壓縮機(jī)制,將長期多模態(tài)交互的計(jì)算與存儲成本降至最低。

隨著 AI 技術(shù)的進(jìn)一步發(fā)展,IXC2.5-OL 不僅將繼續(xù)推動(dòng)人機(jī)交互的革新,還為構(gòu)建更接近人類認(rèn)知的 AI 系統(tǒng)提供了重要參考。

參考:

  1. ??https://github.com/InternLM/InternLM-XComposer/tree/main/InternLM-XComposer-2.5-OmniLive??
  2. ??https://huggingface.co/internlm/internlm-xcomposer2d5-ol-7b??
  3. ??https://github.com/InternLM/InternLM-XComposer/blob/main/InternLM-XComposer-2.5-OmniLive/IXC2.5-OL.pdf??


本文轉(zhuǎn)載自公眾號Halo咯咯 作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/XCa3DYgK27eR7pbUm4ju0g??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2024-12-31 14:39:26修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦