1.Any2Caption:InterpretingAnyConditiontoCaptionforControllableVideoGeneration在視頻創(chuàng)作領(lǐng)域,如何精準(zhǔn)理解用戶需求一直是個難題。今天,我們帶來一項革命性突破——Any2Caption!這個全新框架讓視頻生成徹底告別"意難平",無論什么條件都能精準(zhǔn)把控創(chuàng)作方向。核心優(yōu)勢:智能分離兩大步驟:先解析用戶需求,再生成視頻,避免"理解偏差"全能輸入支持:文字、圖片、視頻甚至專業(yè)參數(shù)(如鏡頭運動、拍攝角度)都能"聽懂"AI大...
6天前 551瀏覽 0點贊 0回復(fù) 0收藏
1.Qwen2.5OmniTechnicalReport我們?nèi)峦瞥鯭wen2.5Omni,一個能同時理解文字、圖片、聲音和視頻的"全能型"AI模型!它像人類一樣,不僅能看圖聽聲,還能邊思考邊生成自然流暢的文本和語音回答。三大創(chuàng)新亮點:1)同步感知:采用獨特的"交錯處理"技術(shù),讓視頻畫面和音頻完美同步,配合創(chuàng)新的"時間對齊"算法,確保多模態(tài)信息精準(zhǔn)配合。2)雙軌生成:獨創(chuàng)"思考者說話者"架構(gòu)——思考者:像超強大腦一樣生成文字內(nèi)容說話者:根據(jù)思考...
2025-04-14 01:06:10 882瀏覽 0點贊 0回復(fù) 0收藏
1.LongContextAutoregressiveVideoModelingwithNextFramePrediction在語言生成領(lǐng)域,長上下文自回歸模型已取得顯著進(jìn)展,但視頻生成卻一直難以有效利用長時間序列信息。為解決這一難題,我們提出了一種名為FrameAutoRegressive的全新視頻生成方法。。FAR借鑒了語言模型逐幀學(xué)習(xí)的思路,通過捕捉視頻連續(xù)幀之間的時序因果關(guān)系,顯著提升了模型的收斂效率,表現(xiàn)優(yōu)于現(xiàn)有主流方法(如TokenAR和視頻擴散模型)。然而,長視頻生成仍...
2025-04-01 00:57:00 967瀏覽 0點贊 0回復(fù) 0收藏
1.TransformerswithoutNormalization在現(xiàn)代深度學(xué)習(xí)模型中,歸一化層幾乎成了標(biāo)配,大家普遍認(rèn)為不可或缺。但我們的研究發(fā)現(xiàn),其實不用歸一化層也能讓Transformer模型表現(xiàn)優(yōu)異——只需要一個簡單的小技巧就夠了。我們提出的動態(tài)雙曲正切函數(shù)(DyT),本質(zhì)上就是通過調(diào)整參數(shù)α來控制tanh函數(shù)的形狀(DyT(x)tanh(αx)),這個方法能完美替代歸一化層的功能。這靈感來自于Transformer中常用的層歸一化,它其實和tanh函數(shù)的S型曲線...
2025-03-20 07:32:59 1458瀏覽 0點贊 0回復(fù) 0收藏
1.ProcessbasedSelfRewardingLanguageModels大型語言模型在各類下游任務(wù)中表現(xiàn)都很不錯,現(xiàn)在已經(jīng)在好多場景里廣泛應(yīng)用了。我們通過用人類標(biāo)注的偏好數(shù)據(jù)訓(xùn)練語言模型,讓它性能得到了進(jìn)一步提升。不過,這種性能是受限于人類能力上限的。為了突破這個限制,有人提出了自獎勵方法,就是讓語言模型自己給自己輸出的內(nèi)容獎勵,然后用這些獎勵數(shù)據(jù)來訓(xùn)練。但現(xiàn)在已有的自獎勵方法在數(shù)學(xué)推理場景中不太好用,弄不好還會讓模型性能變...
2025-03-07 11:20:21 1331瀏覽 0點贊 0回復(fù) 0收藏
1.StepVideoT2VTechnicalReport:ThePractice,Challenges,andFutureofVideoFoundationModel我們提出了StepVideoT2V,這是個有300億參數(shù)的超厲害的文本到視頻預(yù)訓(xùn)練模型,它能生成有204幀那么長的視頻內(nèi)容。為了做好視頻生成這個任務(wù),我們專門設(shè)計了一個深度壓縮變分自動編碼器,也就是VideoVAE。它能把空間壓縮到16x16,時間上壓縮8倍,還能保證視頻重建的質(zhì)量非常高。。用戶要是輸入提示內(nèi)容,我們用兩個雙語文本編碼器來處理...
2025-02-18 13:41:43 1898瀏覽 0點贊 0回復(fù) 0收藏
1.GoldmedalistPerformanceinSolvingOlympiadGeometrywithAlphaGeometry2我們推出了AlphaGeometry2,這是對Trinh等人在2024年提出的AlphaGeometry的重大改進(jìn)版本,如今它在解決奧林匹克幾何問題方面的能力已經(jīng)超過了普通金牌得主。為了實現(xiàn)這一突破,我們首先對原有的AlphaGeometry語言進(jìn)行了擴展,使其能夠處理涉及物體運動的更難題型,以及包含角度、比例和距離的線性方程的問題。這些改進(jìn)以及其他新增內(nèi)容,顯著提高了AlphaG...
2025-02-10 12:03:05 1756瀏覽 0點贊 0回復(fù) 0收藏
1.Kimik1.5:ScalingReinforcementLearningwithLLMs語言模型預(yù)訓(xùn)練時,通過預(yù)測下一個詞來提升計算量的方法效果不錯,可訓(xùn)練數(shù)據(jù)量卻限制了它的進(jìn)一步發(fā)展。強化學(xué)習(xí)(RL)的拓展則為人工智能持續(xù)進(jìn)步提供了新途徑,讓大語言模型(LLMs)有機會通過學(xué)習(xí)探索擴充訓(xùn)練數(shù)據(jù)。不過,之前相關(guān)研究成果都不太理想,沒有特別突出的?;谶@樣的情況,我們來分享Kimik1.5的訓(xùn)練過程。這是我們新研發(fā)的多模態(tài)LLM,使用RL訓(xùn)練。我們會講講R...
2025-01-26 14:40:21 1722瀏覽 0點贊 0回復(fù) 0收藏
1.算法介紹樸素貝葉斯是一種基于貝葉斯定理的分類算法,廣泛應(yīng)用于文本分類、垃圾郵件過濾、情感分析等領(lǐng)域。它是一種簡單但非常有效的分類方法,特別適用于高維度特征空間的分類問題。樸素貝葉斯分類器的"樸素"來源于它對特征之間獨立性的假設(shè)。盡管這個假設(shè)在現(xiàn)實中往往不成立,但該算法在許多實際應(yīng)用中仍然表現(xiàn)出色。2.算法原理3.案例分析我們使用著名的鳶尾花(Iris)數(shù)據(jù)集來演示樸素貝葉斯分類器的應(yīng)用。首先建立樸素貝葉斯分...
2025-01-16 12:17:39 1463瀏覽 0點贊 0回復(fù) 0收藏
1.MiniMax01:ScalingFoundationModelswithLightningAttention我們推出了MiniMax01系列,包括MiniMaxText01和MiniMaxVL01。這兩款產(chǎn)品不僅性能可與頂尖模型相媲美,而且在處理更長文本上下文方面具備卓越能力。其核心技術(shù)是LightningAttention及其高效的擴展方法。為充分發(fā)揮計算能力,我們將其與混合專家(MoE)技術(shù)相結(jié)合,打造出擁有32個專家模塊、共計4560億參數(shù)的模型,每個Token激活459億參數(shù)。針對MoE和閃電注意力機制,...
2025-01-16 12:14:33 1921瀏覽 0點贊 0回復(fù) 0收藏
1.PersonalizedGraphBasedRetrievalforLargeLanguageModels隨著大語言模型(LLMs)的演進(jìn),它們提供個性化和上下文相關(guān)響應(yīng)的能力具有改變用戶體驗的潛力。然而,現(xiàn)有的個性化方法通常僅依賴用戶歷史來增強提示,這在冷啟動場景或數(shù)據(jù)稀疏的情況下限制了其有效性。為了克服這些限制,我們提出了一種基于圖的個性化檢索增強生成(PGraphRAG)框架,該框架利用用戶中心的知識圖來豐富個性化。通過直接將結(jié)構(gòu)化的用戶知識融入檢索...
2025-01-08 13:04:30 1586瀏覽 0點贊 0回復(fù) 0收藏
量化已成為壓縮大語言模型(LLMs)的最有效方法之一。然而,現(xiàn)有的量化方案仍然存在不可忽視的準(zhǔn)確性下降或系統(tǒng)效率低下的局限性。在本文中,我們?nèi)娣治隽肆炕囊话阍瓌t對準(zhǔn)確性、內(nèi)存消耗和系統(tǒng)效率三角關(guān)系的影響。我們提出了MixLLM,這是一種基于輸出特征之間的混合精度量化的方法。MixLLM從全局視角識別高顯著性的輸出特征,而非僅在單層內(nèi)部,有效地為最需要的輸出特征分配更大的位寬,從而在低內(nèi)存消耗的情況下實現(xiàn)良...
2024-12-30 13:03:29 2302瀏覽 0點贊 0回復(fù) 0收藏
1.VidTok:AVersatileandOpenSourceVideoTokenizer將視頻內(nèi)容編碼為緊湊的潛在token已經(jīng)成為視頻生成和理解中的一個基本步驟,這是為了應(yīng)對像素級表示中固有的冗余問題。因此,隨著以視頻為中心的研究日益重要,對高性能、開源視頻token化工具的需求也在不斷增長。我們推出了VidTok,這是一種多功能的視頻Tokenizer,在連續(xù)和離散token化方面都提供了最先進(jìn)的性能。VidTok相較于現(xiàn)有方法引入了幾個關(guān)鍵改進(jìn):模型架構(gòu)方面采用了...
2024-12-20 10:36:02 2001瀏覽 0點贊 0回復(fù) 0收藏
1.VideoEspresso:ALargeScaleChainofThoughtDatasetforFineGrainedVideoReasoningviaCoreFrameSelection大型視覺語言模型(LVLMs)的進(jìn)步顯著提升了多模態(tài)理解能力,但在視頻推理任務(wù)中仍面臨挑戰(zhàn),主要原因是高質(zhì)量、大規(guī)模數(shù)據(jù)集的缺乏。現(xiàn)有的視頻問答(VideoQA)數(shù)據(jù)集往往依賴于成本高昂且粒度不足的手動標(biāo)注,或者使用會產(chǎn)生冗余幀分析的自動構(gòu)建方法,這限制了它們在復(fù)雜推理任務(wù)中的可擴展性和有效性。為了解決這些挑戰(zhàn)...
2024-12-10 10:30:06 2574瀏覽 0點贊 0回復(fù) 0收藏
1.ReverseThinkingMakesLLMsStrongerReasoners逆向思維在人類推理中扮演著至關(guān)重要的角色。人們不僅可以從問題推導(dǎo)出解決方案,還可以反過來從解決方案推導(dǎo)出問題。這種雙向思考方式往往能提高整體的推理性能,因為它允許前后思維之間的一致性檢查。為了使大型語言模型(LLM)具備逆向思維能力,我們引入了逆向增強思維(RevThink)框架,該框架由數(shù)據(jù)增強和學(xué)習(xí)目標(biāo)組成。在RevThink中,我們通過收集教師模型提供的結(jié)構(gòu)化正向...
2024-12-03 13:28:09 2490瀏覽 0點贊 0回復(fù) 0收藏