【LLM合集】Qwen2.5-Omni:像人類一樣「看聽想說(shuō)」的全能助手來(lái)了!
1. Qwen2.5-Omni Technical Report
我們?nèi)峦瞥鯭wen2.5-Omni,一個(gè)能同時(shí)理解文字、圖片、聲音和視頻的"全能型"AI模型!它像人類一樣,不僅能看圖聽聲,還能邊思考邊生成自然流暢的文本和語(yǔ)音回答。
三大創(chuàng)新亮點(diǎn):
1)同步感知:采用獨(dú)特的"交錯(cuò)處理"技術(shù),讓視頻畫面和音頻完美同步,配合創(chuàng)新的"時(shí)間對(duì)齊"算法,確保多模態(tài)信息精準(zhǔn)配合。
2)雙軌生成:獨(dú)創(chuàng)"思考者-說(shuō)話者"架構(gòu)——
- 思考者:像超強(qiáng)大腦一樣生成文字內(nèi)容
- 說(shuō)話者:根據(jù)思考結(jié)果直接生成自然語(yǔ)音 兩者協(xié)同工作,避免圖文聲互相干擾,實(shí)現(xiàn)更自然的表達(dá)。
3)流暢輸出:采用"滑動(dòng)窗口"技術(shù)處理音頻,就像實(shí)時(shí)剪輯視頻一樣,讓語(yǔ)音生成既快速又保持高質(zhì)量,顯著降低等待時(shí)間。
性能優(yōu)勢(shì): ? 與同規(guī)模的Qwen2.5-VL性能相當(dāng) ? 音頻處理能力超越Qwen2-Audio ? 在多模態(tài)測(cè)試中表現(xiàn)領(lǐng)先(如Omni-Bench基準(zhǔn)測(cè)試)
Qwen2.5-Omni就像一位全能型AI助手,既能理解復(fù)雜多樣的信息形式,又能像真人一樣邊思考邊流暢輸出,為智能交互帶來(lái)全新體驗(yàn)!
論文: ??https://arxiv.org/pdf/2503.20215??
2. Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy
傳統(tǒng)機(jī)器人學(xué)習(xí)有個(gè)難題:它們雖然能看懂圖像、聽懂指令,但執(zhí)行動(dòng)作時(shí)總被"手腳不協(xié)調(diào)"困擾?,F(xiàn)在,Dita來(lái)了!
核心突破Dita用一種全新的"多模態(tài)擴(kuò)散"技術(shù),讓機(jī)器人能像人類一樣靈活處理復(fù)雜動(dòng)作。它不再依賴傳統(tǒng)的"動(dòng)作預(yù)測(cè)頭"(容易卡殼),而是通過(guò)統(tǒng)一的AI流程直接生成連續(xù)動(dòng)作序列,就像給機(jī)器人裝上了"動(dòng)態(tài)規(guī)劃大腦"。
三大創(chuàng)新
1)精準(zhǔn)同步:通過(guò)"上下文內(nèi)條件化"技術(shù),讓機(jī)器人動(dòng)作與視覺場(chǎng)景實(shí)時(shí)對(duì)齊。比如,看到杯子傾斜時(shí),能立刻調(diào)整抓取角度。
2)超強(qiáng)適應(yīng)力:兼容多種攝像頭視角、任務(wù)類型和動(dòng)作空間。無(wú)論是工廠機(jī)械臂還是家庭服務(wù)機(jī)器人,一套方案搞定。
3)輕量高效:僅需10次微調(diào),就能讓機(jī)器人適應(yīng)新環(huán)境。比如用第三人稱視角攝像頭輸入,就能讓機(jī)器人學(xué)會(huì)新任務(wù),無(wú)需大量數(shù)據(jù)重訓(xùn)。
實(shí)際表現(xiàn)
- 在模擬測(cè)試中性能達(dá)到頂尖水平
- 現(xiàn)實(shí)場(chǎng)景中,僅用普通攝像頭就能完成復(fù)雜長(zhǎng)期任務(wù)(如組裝、清潔等)
- 開源架構(gòu),開發(fā)者可輕松定制專屬機(jī)器人策略
為什么重要?Dita讓機(jī)器人學(xué)習(xí)像搭積木一樣簡(jiǎn)單:通過(guò)統(tǒng)一框架整合視覺、語(yǔ)言、動(dòng)作,顯著提升應(yīng)對(duì)環(huán)境變化的能力。無(wú)論是工廠自動(dòng)化、家庭服務(wù),還是未來(lái)更復(fù)雜的場(chǎng)景,Dita都為機(jī)器人提供了更聰明的"行動(dòng)大腦"。
論文: ??https://arxiv.org/pdf/2503.19757??
3. Wan: Open and Advanced Large-Scale Video Generative Models
我們推出Wan——一個(gè)強(qiáng)大且開放的視頻生成模型套件,重新定義視頻創(chuàng)作的邊界!它基于前沿的擴(kuò)散Transformer技術(shù),通過(guò)四大創(chuàng)新實(shí)現(xiàn)突破:
核心優(yōu)勢(shì)
1)超強(qiáng)性能
- 搭載140億參數(shù)的“超強(qiáng)大腦”,在數(shù)十億圖像和視頻數(shù)據(jù)上訓(xùn)練,性能遠(yuǎn)超現(xiàn)有開源模型和商業(yè)方案。
- 在多個(gè)測(cè)試中表現(xiàn)優(yōu)異,無(wú)論是生成質(zhì)量還是多樣性都領(lǐng)先行業(yè)。
2)全面覆蓋
- 提供13億參數(shù)(輕量高效)和140億參數(shù)(極致效果)兩種版本,滿足不同需求。
- 支持八大任務(wù),
包括:
- 文字生成視頻
- 圖片轉(zhuǎn)視頻
- 指令引導(dǎo)視頻編輯
- 個(gè)性化視頻創(chuàng)作
3)平民化效率
- 輕量版僅需8.19GB顯存,輕松適配主流消費(fèi)級(jí)顯卡(如RTX 3090),普通人也能玩轉(zhuǎn)AI視頻生成!
4)完全開源
- 所有代碼、模型和工具均免費(fèi)開放(GitHub鏈接:Wan官方地址),助力開發(fā)者和創(chuàng)作者解鎖無(wú)限可能!
論文: ??https://arxiv.org/pdf/2503.20314??
4. Open Deep Search: Democratizing Search with Open-source Reasoning Agents
你是否覺得閉源AI(如GPT-4o、Perplexity)的“搜索能力”遙不可及?現(xiàn)在,開放深度搜索(ODS) 讓開源模型也能擁有“超強(qiáng)大腦”!
核心突破ODS通過(guò)兩大創(chuàng)新,讓開源AI的推理能力“秒變”閉源級(jí):
1)智能推理助手
- 開發(fā)“推理Agent”,像人類一樣理解任務(wù)需求,自動(dòng)規(guī)劃步驟(比如先搜索信息、再分析、最后回答)。
- 支持調(diào)用開放搜索工具(性能甚至超過(guò)閉源工具),精準(zhǔn)獲取網(wǎng)絡(luò)信息。
2)性能大躍升
- 與開源模型(如DeepSeek-R1)結(jié)合后,準(zhǔn)確率直追甚至超越閉源AI:? 在問答基準(zhǔn)測(cè)試FRAMES中,比GPT-4o Search Preview高出9.7%!? 在SimpleQA測(cè)試中準(zhǔn)確率達(dá)82.4%,接近人類水平。
三大優(yōu)勢(shì)
- 開源普惠:完全免費(fèi)開源(GitHub可獲?。?,讓每個(gè)人都能用上“閉源級(jí)”搜索推理能力。
- 靈活適配:支持任何開源模型“一鍵升級(jí)”,小到13億參數(shù),大到百億級(jí)模型都能用。
- 真實(shí)可靠:通過(guò)智能搜索驗(yàn)證信息,減少AI“一本正經(jīng)地胡說(shuō)八道”。
想讓自己的AI模型“秒變”搜索超腦?點(diǎn)擊獲取開源框架?? ODS官方地址
論文: ???https://arxiv.org/pdf/2503.20201??
本文轉(zhuǎn)載自??AI-PaperDaily??,作者:AI-PaperDaily
