自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全球最大開源視頻模型,現(xiàn)在也Created in China了

人工智能 新聞
在兩款大模型的研發(fā)過程中,雙方在算力算法、場景訓(xùn)練等領(lǐng)域優(yōu)勢互補,“顯著增強了多模態(tài)大模型的性能表現(xiàn)”。

剛剛,階躍星辰聯(lián)合吉利汽車集團,開源了兩款多模態(tài)大模型!

新模型共2款:

  • 全球范圍內(nèi)參數(shù)量最大的開源視頻生成模型Step-Video-T2V
  • 行業(yè)內(nèi)首款產(chǎn)品級開源語音交互大模型Step-Audio

多模態(tài)卷王開始開源多模態(tài)模型,其中Step-Video-T2V采用的還是最為開放寬松的MIT開源協(xié)議,可任意編輯和商業(yè)應(yīng)用

(老規(guī)矩,GitHub、抱抱臉、魔搭直通車可見文末)

在兩款大模型的研發(fā)過程中,雙方在算力算法、場景訓(xùn)練等領(lǐng)域優(yōu)勢互補,“顯著增強了多模態(tài)大模型的性能表現(xiàn)”。

從官方公布的技術(shù)報告來看,這次開源的兩款模型在Benchmark中表現(xiàn)優(yōu)秀,性能超過國內(nèi)外同類開源模型。

抱抱臉官方也轉(zhuǎn)發(fā)了中國區(qū)負責人給予的高度評價。

劃重點,“The next DeepSeek”、“HUGE SoTA”。

圖片

哦,是嗎?

那量子位可要在本篇文章中掰開技術(shù)報告+一手實測,看看它們是否名副其實。

量子位求證,目前,本次2款新的開源模型都已接入躍問App,人人可以體驗。

多模態(tài)卷王首次開源多模態(tài)模型

Step-Video-T2V和Step-Audio,是階躍星辰首次開源的多模態(tài)模型。

Step-Video-T2V

先來看看視頻生成模型Step-Video-T2V。

它的參數(shù)量達到30B,是目前已知全球范圍內(nèi)參數(shù)量最大的開源視頻生成大模型,原生支持中英雙語輸入。

官方介紹,Step-Video-T2V共有4大技術(shù)特點:

第一,可直接生成最長204幀、540P分辨率的視頻,確保生成的視頻內(nèi)容具有極高的一致性和信息密度。

第二,針對視頻生成任務(wù)設(shè)計并訓(xùn)練了高壓縮比的Video-VAE,在保證視頻重構(gòu)質(zhì)量的前提下,能夠?qū)⒁曨l在空間維度壓縮16×16倍,時間維度壓縮8倍。

當下市面上多數(shù)VAE模型壓縮比為8x8x4,在相同視頻幀數(shù)下,Video-VAE能額外壓縮8倍,故而訓(xùn)練和生成效率都提升64倍。

第三,針對DiT模型的超參設(shè)置、模型結(jié)構(gòu)和訓(xùn)練效率,Step-Video-T2V了進行深入的系統(tǒng)優(yōu)化,確保訓(xùn)練過程的高效性和穩(wěn)定性。

第四,詳細介紹了預(yù)訓(xùn)練和后訓(xùn)練在內(nèi)的完整訓(xùn)練策略,包括各階段的訓(xùn)練任務(wù)、學習目標以及數(shù)據(jù)構(gòu)建和篩選方式。

此外,Step-Video-T2V在訓(xùn)練最后階段引入Video-DPO(視頻偏好優(yōu)化)——這是一種針對視頻生成的RL優(yōu)化算法,能進一步提升視頻生成質(zhì)量,強化生成視頻的合理性和穩(wěn)定性。

最終效果,是讓所生成視頻中的運動更流暢、細節(jié)更豐富、指令對齊更準確。

圖片

為了全面評測開源視頻生成模型的性能,階躍此次一并發(fā)布了針對文生視頻質(zhì)量評測的新基準數(shù)據(jù)集Step-Video-T2V-Eval

該數(shù)據(jù)集也一并開源了~

它包含128條源于真實用戶的中文評測問題,旨在評估生成視頻在11個內(nèi)容類別上的質(zhì)量,包括運動、風景、動物、組合概念、超現(xiàn)實等等。

Step-Video-T2V-Eval在其上的評測結(jié)果,見下圖:

圖片

可以看到,Step-Video-T2V在指令遵循、運動平滑性、物理合理性、美感度等方面,表現(xiàn)均超越此前最佳的開源視頻模型。

這意味著,整個視頻生成領(lǐng)域,都可以基于這個新的最強基礎(chǔ)模型來進行研究與創(chuàng)新。

而實際效果方面,階躍官方介紹:

生成效果,Step-Video-T2V在復(fù)雜運動、美感人物、視覺想象力、基礎(chǔ)文字生成、原生中英雙語輸入和鏡頭語言等方面具備強大的生成能力,且語義理解和指令遵循能力突出,能夠高效助力視頻創(chuàng)作者實現(xiàn)精準創(chuàng)意呈現(xiàn)。

還等什么?實測走起——

按照官方介紹的順序,第一關(guān),測試Step-Video-T2V能否hold住復(fù)雜運動。

之前的視頻生成模型,在生成芭蕾/國標/中國舞、藝術(shù)體操、空手道、武術(shù)等各類復(fù)雜性運動片段中,總會出現(xiàn)奇奇怪怪的畫面。

比如突然冒出來的第三條腿,交叉融合的雙臂等等,怪嚇人的。

針對這類情況,我們進行定向測試,丟給Step-Video-T2V一段prompt:

室內(nèi)羽毛球場,平視視角,固定鏡頭記錄了一段男子打羽毛球的場景。一名身穿紅色短袖、黑色短褲的男子,手持羽毛球拍,站在綠色的羽毛球場地中央。球網(wǎng)橫跨場地,將場地分為兩部分。男子揮拍擊球,將羽毛球擊向?qū)γ妗9饩€明亮均勻,畫面清晰。

然后得到:

場景、人物、鏡頭、光線、動作,統(tǒng)統(tǒng)吻合。

生成畫面中含「美感人物」,則是量子位對Step-Video-T2V發(fā)起的第二關(guān)挑戰(zhàn)。

講道理,現(xiàn)在文生圖模型生成真人圖片的level,在靜態(tài)、局部細節(jié)上,絕對是可以以假亂真的。

但視頻生成時,人物一旦動起來,仍存在可辨識的物理或邏輯瑕疵。

而Step-Video-T2V的表現(xiàn)嘛——

Prompt:一位男性,身穿黑色西裝,搭配深色領(lǐng)帶和白色襯衫,臉部帶有傷痕,表情凝重。特寫鏡頭。

“沒什么AI感?!?/strong>

這是量子位編輯部同學們傳閱一遍過后,對視頻中小帥的一致評價。

既是五官端正,皮膚紋理真實,臉上傷痕清晰可見的那種“沒什么AI感”。

也是逼真但主人公并沒出現(xiàn)眼神空洞、表情僵硬的那種“沒什么AI感”。

上面兩關(guān),都讓Step-Video-T2V保持在固定鏡頭機位。

那么,推拉搖移,表現(xiàn)如何?

第三關(guān),考驗Step-Video-T2V對運鏡的掌握,比如推拉搖移,旋轉(zhuǎn)、跟隨。

要它旋轉(zhuǎn),它就旋轉(zhuǎn):

要它移動與跟隨,它就給你移動與跟隨:

還挺不賴!可以肩扛斯坦尼康,去片場當運鏡大師了(不是)。

一番測試下來,生成效果給出答案:

Step-Video-T2V確如評測集結(jié)果那樣,在語義理解和指令遵循能力突出。

甚至基礎(chǔ)文字生成也輕松拿捏

Step-Audio

同時開源的另一款模型Step-Audio,是行業(yè)內(nèi)首個產(chǎn)品級的開源語音交互模型。

在階躍自建并開源的多維度評估體系StepEval-Audio-360基準測試上,Step-Audio在邏輯推理、創(chuàng)作能力、指令控制、語言能力、角色扮演、文字游戲、情感價值等維度,均取得最佳成績。

圖片

在LlaMA Question、Web Questions等5大主流公開測試集中,Step-Audio性能均超過了行業(yè)內(nèi)同類型開源模型,位列第一。

可以看到,它在HSK-6(漢語水平考試六級)評測中的表現(xiàn)尤為突出。

實測如下:

階躍團隊介紹,Step-Audio能夠根據(jù)不同的場景需求生成情緒、方言、語種、歌聲和個性化風格的表達,能和用戶自然地高質(zhì)量對話。

同時,由其生成的語音不僅具有逼真自然、高情商等特征,還能實現(xiàn)高質(zhì)量的音色復(fù)刻并進行角色扮演。

總之,影視娛樂、社交、游戲等行業(yè)場景下應(yīng)用需求,Step-Audio包讓你一整個大滿足的。

階躍開源生態(tài),正在滾雪球

怎么說呢,就一個字:卷。

階躍是真卷啊,尤其是在自家拿手好戲多模態(tài)模型方面——

旗下Step系列中的多模態(tài)模型,自打出生以來,就是國內(nèi)外各大權(quán)威評測集、競技場等的第一名???。

只看最近3個月,都已經(jīng)數(shù)次勇奪榜首。

  • 去年11月22日,大模型競技場最新榜單,多模態(tài)理解大模型Step-1V上榜,總分與Gemini-1.5-Flash-8B-Exp-0827持平,位列視覺領(lǐng)域中國大模型第一。
  • 今年1月,國內(nèi)大模型評估平臺“司南”(OpenCompass)多模態(tài)模型評測實時榜單,剛出爐的Step-1o系列模型拿下第一。
  • 同日,大模型競技場最新榜單,多模態(tài)模型Step-1o-vision拿下國內(nèi)視覺領(lǐng)域大模型第一。

其次,階躍的多模態(tài)模型不僅性能好、質(zhì)量佳,研發(fā)迭代頻率也很高——

截至目前,階躍星辰已經(jīng)先后發(fā)布了11款多模態(tài)大模型。

上個月,6天連發(fā)6模型,覆蓋語言、語音、視覺、推理全賽道,進一步做實多模態(tài)卷王稱號。

這個月又開源2款多模態(tài)模型。

只要穩(wěn)定住這個節(jié)奏,就能繼續(xù)且持續(xù)地證明自己「全家桶級多模態(tài)玩家」的地位。

憑借強大的多模態(tài)實力,2024年開始,市場和開發(fā)者們就已經(jīng)認可并廣泛接入階躍API,形成了龐大的用戶基礎(chǔ)。

大眾消費品,如茶百道,就讓全國數(shù)千家門店接入多模態(tài)理解大模型Step-1V,探索大模型技術(shù)在茶飲行業(yè)的應(yīng)用,進行智能巡檢、AIGC 營銷。

公開數(shù)據(jù)顯示,平均每天上百萬杯茶百道茶飲在大模型智能巡檢的守護下送到消費者手中。

而Step-1V平均每天能夠為茶百道督導(dǎo)員節(jié)約75%的自檢核驗時間,為茶飲消費者提供了更加安心和優(yōu)質(zhì)的服務(wù)。

獨立開發(fā)者,如網(wǎng)紅AI應(yīng)用“胃之書”、AI心理療愈應(yīng)用“林間聊愈室”在對國內(nèi)大部分模型做過AB測試后,最終都選擇了階躍多模態(tài)模型API。

(小聲:因為用它,付費率最高)

具體數(shù)據(jù)顯示,2024年下半年,階躍多模態(tài)大模型API的調(diào)用量增長超45倍。

再說到,此次開源,開源的就是階躍自家最擅長的多模態(tài)模型。

我們注意到,已經(jīng)積累市場和開發(fā)者口碑及數(shù)量的階躍,此次開源,從模型側(cè)就在為后續(xù)深入接入做考慮。

一方面,Step-Video-T2V采用了是最為開放寬松的MIT開源協(xié)議,可任意編輯和商業(yè)應(yīng)用。

可以說,「毫不隱藏」。

另一方面,階躍表示“全力降低產(chǎn)業(yè)接入門檻”。

就拿Step-Audio來說吧,不同于市面上的開源方案需要經(jīng)過再部署和再開發(fā)等工作量,Step-Audio是一整套實時對話方案,只要簡單部署上就能直接實時對話。

零幀起手就能享受端到端體驗。

一整套動作下來,圍繞階躍星辰和它手中的多模態(tài)模型王牌,已經(jīng)初步形成了獨屬于階躍的開源技術(shù)生態(tài)。

在這個生態(tài)中,技術(shù)、創(chuàng)意和商業(yè)價值相互交織,共同推動著多模態(tài)技術(shù)的發(fā)展。

而且隨著階躍模型的繼續(xù)研發(fā)、迭代,開發(fā)者的迅速、持續(xù)接入,生態(tài)伙伴的助力、合力,階躍生態(tài)的“滾雪球效應(yīng)”,已經(jīng)發(fā)生,并正在壯大。

中國開源力量正在并肩用實力說話

曾幾何時,提起大模型開源領(lǐng)域的佼佼者,人們腦中浮現(xiàn)出的是Meta的LLaMA,是Albert Gu的Mamba。

到了現(xiàn)在,毋庸置疑,中國大模型屆的開源力量已經(jīng)閃耀全球,用實力改寫“刻板印象”。

1月20日,蛇年春節(jié)前夕,是一個國內(nèi)外大模型神仙打架的日子。

最矚目的是,DeepSeek-R1在這一天問世,它推理性能比肩OpenAI o1,成本卻僅后者1/3。

影響之巨大,一夜讓英偉達蒸發(fā)5890億美元(約合人民幣4.24萬億元),創(chuàng)下美股單日跌幅最大紀錄。

更重要也更耀眼的是,R1之所以上升到億萬人為之興奮的高度,除了推理優(yōu)異、價格親民,更重要的是它身上的開源屬性。

一石激起千層浪,連長期被戲謔「不再open」的OpenAI,都有CEO奧特曼屢次出來公開發(fā)言。

奧特曼說:“在開源權(quán)重AI模型這個問題上,(個人認為)我們站在了歷史錯誤的一邊。”

他還說:“世界上確實需要開源模型,它們可以為人們提供大量價值。我很高興,世界上已經(jīng)有一些優(yōu)秀的開源模型?!?/p>

現(xiàn)在,階躍也開始開源手里的新王牌了。

并且開源是初衷。

官方表示,開源Step-Video-T2V和Step-Audio,目的就是促進大模型技術(shù)的共享與創(chuàng)新,推動人工智能的普惠發(fā)展。

開源一出場就憑實力在多個評測集上秀一把。

圖片

現(xiàn)在的開源大模型的牌桌上,DeepSeek強推理,階躍Step重多模態(tài),還有各式各樣持續(xù)發(fā)育的選手……

它們的實力不僅是在開源圈子里拔尖,放眼整個大模型圈子,都很夠看。

——中國開源力量,在嶄露頭角后,正在更進一步。

圖片

以階躍這次開源為例,突破的是多模態(tài)領(lǐng)域的技術(shù),改變的是全球開發(fā)者的選擇邏輯。

Eleuther AI等很多開源社區(qū)活躍的技術(shù)大v,紛紛主動下場測試階躍的模型,“感謝中國開源”。

圖片

圖片

抱抱臉中國區(qū)負責人王鐵震直接表示,階躍會是下一個“DeepSeek”。

圖片

從「技術(shù)突圍」到「生態(tài)開放」,中國大模型的路越走越穩(wěn)。

話說回來,階躍今次開源雙模型,或許只是2025年AI競賽的一個注腳。

更深層次的,它展現(xiàn)了中國開源力量的技術(shù)自信,并傳遞出一個信號:

未來的AI大模型世界,中國力量絕不缺席,也絕不落于人后。

【Step-Video-T2V】

GitHub:https://github.com/stepfun-ai/Step-Video-T2V抱抱臉:https://huggingface.co/stepfun-ai/stepvideo-t2v魔搭Model Scope:https://modelscope.cn/models/stepfun-ai/stepvideo-技術(shù)報告:https://arxiv.org/abs/2502.10248體驗入口https://yuewen.cn/videos

【Step-Audio】

GitHub:https://github.com/stepfun-ai/Step-Audio抱抱臉:https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b魔搭Model Scope:https://modelscope.cn/collections/Step-Audio-a47b227413534a技術(shù)報告:https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-03-18 14:17:06

大模型開源人工智能

2019-05-16 13:35:40

阿里云技術(shù)專家開源

2024-04-25 13:58:51

開源模型Vicuna

2024-05-28 09:17:57

2014-09-25 16:03:37

浪潮開源紅帽

2024-12-30 13:40:00

2020-02-20 09:10:52

企業(yè)信貸反欺詐益博睿

2020-04-26 11:40:18

工具開源騰訊

2022-10-08 09:41:09

Docker容器

2019-11-21 14:39:42

開源云管理私有云

2024-03-18 13:21:13

2019-12-11 10:20:23

GitHub代碼開發(fā)者

2014-02-24 14:34:49

2021-11-02 09:25:00

AI 數(shù)據(jù)人工智能

2023-11-06 11:26:55

模型開源

2010-03-23 10:01:02

IBM開發(fā)中心

2024-07-30 10:51:51

2018-06-22 13:25:34

2019-06-12 18:30:17

LinuxLutris開源游戲平臺
點贊
收藏

51CTO技術(shù)棧公眾號