自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

angel
LV.9
這個(gè)用戶(hù)很懶,還沒(méi)有個(gè)人簡(jiǎn)介
聲望 3119
關(guān)注 0
粉絲 7
私信
主帖 333
回帖
文章地址:https:arxiv.orgabs2504.19724項(xiàng)目鏈接:https:reptext.github.ioGit鏈接:https:github.comShakkerLabsRepText亮點(diǎn)直擊RepText,一個(gè)用于可控多語(yǔ)言視覺(jué)文本渲染的有效框架。創(chuàng)新性地引入了字形隱空間變量復(fù)制技術(shù),以提高排版準(zhǔn)確性并實(shí)現(xiàn)顏色控制。此外,采用區(qū)域掩碼來(lái)保證良好的視覺(jué)保真度,避免背景干擾。定性實(shí)驗(yàn)表明,本方法優(yōu)于現(xiàn)有開(kāi)源方案,并與原生多語(yǔ)言閉源模型取得了可比的結(jié)果。總結(jié)速覽解決的問(wèn)題現(xiàn)...
5h前 94瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.02828項(xiàng)目鏈接:https:peterljq.github.ioprojectcolanGit鏈接:https:github.competerljqConceptLancet亮點(diǎn)直擊提出CoLan框架一個(gè)零樣本即插即用的框架,用于在基于擴(kuò)散的圖像編輯中解釋和操作稀疏概念表示。該框架可以精確控制概念移植的幅度,實(shí)現(xiàn)高質(zhì)量的圖像編輯。構(gòu)建CoLan150K概念詞典收集了包含多樣化視覺(jué)概念的CoLan150K數(shù)據(jù)集,并計(jì)算對(duì)應(yīng)的概念向量詞典(文本嵌入或評(píng)分空間),為...
2天前 380瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.16915項(xiàng)目鏈接:https:mce.github.ioprojectDreamO亮點(diǎn)直擊提出了DreamO,一個(gè)統(tǒng)一的圖像定制框架。它通過(guò)在預(yù)訓(xùn)練的DiT模型上訓(xùn)練少量額外參數(shù),實(shí)現(xiàn)了各種復(fù)雜和多條件的定制任務(wù)?;跀U(kuò)散模型內(nèi)部的表示對(duì)應(yīng)關(guān)系,本文設(shè)計(jì)了一種特征路由約束,以增強(qiáng)一致性保真度,并在多條件場(chǎng)景中實(shí)現(xiàn)有效的解耦。引入了一種漸進(jìn)式訓(xùn)練策略,以促進(jìn)多任務(wù)和復(fù)雜任務(wù)設(shè)置的收斂。本文還設(shè)計(jì)了一種占位符...
5天前 798瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.15009開(kāi)源地址:https:songwensong.github.ioinsertanything亮點(diǎn)直擊發(fā)布了AnyInsertion數(shù)據(jù)集,這是一個(gè)包含120K提示圖像對(duì)的大規(guī)模數(shù)據(jù)集,涵蓋了廣泛的插入任務(wù),例如人物、物體和服裝插入。提出了InsertAnything框架,這是一個(gè)統(tǒng)一框架,通過(guò)單一模型無(wú)縫處理多種插入任務(wù)(人物、物體和服裝)。首個(gè)利用DiT(DiffusionTransformer)進(jìn)行圖像插入的研究,充分發(fā)揮了其在不同控制模式下的...
6天前 801瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.13074代碼&模型鏈接:https:github.comSkyworkAISkyReelsV2SKyReelsV2生產(chǎn)驚人的現(xiàn)實(shí)和電影的高分辨率視頻幾乎無(wú)限長(zhǎng)度亮點(diǎn)直擊全面的視頻標(biāo)注器,既能理解鏡頭語(yǔ)言,又能捕捉視頻的通用描述,從而顯著提升提示詞遵循能力。針對(duì)運(yùn)動(dòng)優(yōu)化的偏好學(xué)習(xí),通過(guò)半自動(dòng)數(shù)據(jù)收集流程增強(qiáng)運(yùn)動(dòng)動(dòng)態(tài)表現(xiàn)。高效的擴(kuò)散強(qiáng)制適配,支持超長(zhǎng)視頻生成和故事敘述能力,為時(shí)序連貫性和敘事深度提供穩(wěn)健框架。開(kāi)源S...
7天前 608瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
論文鏈接:https:arxiv.orgpdf2504.01724項(xiàng)目鏈接:https:grisoon.github.ioDreamActorM1亮點(diǎn)直擊提出了一個(gè)整體的基于DiT的框架和一種漸進(jìn)的訓(xùn)練策略,用于支持靈活多尺度合成的人像動(dòng)畫(huà)。設(shè)計(jì)了混合控制信號(hào),結(jié)合了隱式面部表征、顯式3D頭部球體和身體骨架,以實(shí)現(xiàn)富有表現(xiàn)力的身體和面部動(dòng)作合成,同時(shí)支持多樣化的角色風(fēng)格。開(kāi)發(fā)了互補(bǔ)的外觀引導(dǎo),以緩解視頻片段之間未見(jiàn)區(qū)域的信息差距,從而實(shí)現(xiàn)長(zhǎng)時(shí)間段內(nèi)的一致視頻生...
8天前 602瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.10483項(xiàng)目鏈接:https:end2enddiffusion.github.ioGit鏈接:https:github.comEnd2EndDiffusionREPAE模型鏈接:https:huggingface.coREPAE亮點(diǎn)直擊端到端聯(lián)合優(yōu)化的突破首次實(shí)現(xiàn)VAE與擴(kuò)散模型的端到端聯(lián)合訓(xùn)練,通過(guò)REPALoss替代傳統(tǒng)擴(kuò)散損失,解決兩階段訓(xùn)練目標(biāo)不一致問(wèn)題,使隱空間與生成任務(wù)高度適配。訓(xùn)練效率革命性提升REPAE僅需傳統(tǒng)方法145的訓(xùn)練步數(shù)即可收斂,且生成質(zhì)量顯著超越現(xiàn)有方...
9天前 747瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.08736項(xiàng)目鏈接:https:silentview.github.ioGigaTok代碼鏈接:https:github.comSilentViewGigaTok亮點(diǎn)直擊分詞器規(guī)模擴(kuò)展中存在的重建與生成困境源于更大規(guī)模分詞器隱空間復(fù)雜度的提升。本文提出語(yǔ)義正則化方法,有效緩解該困境從而實(shí)現(xiàn)分詞器的規(guī)模擴(kuò)展。探索了分詞器規(guī)模擴(kuò)展的最佳實(shí)踐方案,包括:采用混合CNNTransformer架構(gòu)的一維分詞器、非對(duì)稱(chēng)編碼器解碼器擴(kuò)展策略,以及針對(duì)十億級(jí)分...
2025-04-18 09:56:15 1104瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.11346官方鏈接:https:team.doubao.comtechseedream30亮點(diǎn)直擊相比Seedream2.0能力全面增強(qiáng):在用戶(hù)偏好測(cè)試中表現(xiàn)出色,在圖文對(duì)齊、構(gòu)圖結(jié)構(gòu)、美學(xué)質(zhì)量和文字渲染等關(guān)鍵能力方面有重大突破。文本渲染性能提升顯著:在中英文小尺寸字符生成和高美學(xué)長(zhǎng)文本排版方面表現(xiàn)優(yōu)異。小文本生成與美學(xué)排版難題的開(kāi)創(chuàng)性方案,在圖文設(shè)計(jì)輸出上超越Canva等平臺(tái)的人設(shè)模板。圖像美學(xué)提升:圖像美學(xué)質(zhì)量顯...
2025-04-17 09:43:46 2070瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.02782代碼&數(shù)據(jù)集:https:github.comPicoTrexGPTImgEval亮點(diǎn)直擊GPTImgEval,首個(gè)通過(guò)三個(gè)成熟基準(zhǔn)(包括文本到圖像生成、編輯和理解引導(dǎo)生成)定量和定性評(píng)估GPT4o圖像生成能力的基準(zhǔn)測(cè)試。全面結(jié)果突顯了GPT4o在圖像生成和理解能力上優(yōu)于先前模型的卓越表現(xiàn)?;跍y(cè)試結(jié)果深入分析,包括:(1)通過(guò)基于分類(lèi)器的圖像分析研究GPT4o的潛在底層架構(gòu);(2)對(duì)其弱點(diǎn)的系統(tǒng)性實(shí)證研究,包括常見(jiàn)...
2025-04-16 10:29:04 1452瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2410.18775Git鏈接:https:github.comShilinLUVINE亮點(diǎn)直擊提出了WBench,這是首個(gè)綜合性基準(zhǔn)測(cè)試,旨在評(píng)估11種代表性水印模型在多種圖像編輯方法下的表現(xiàn):圖像再生、全局編輯、局部編輯和圖像到視頻生成。該評(píng)估涵蓋了7種廣泛使用的編輯模型和算法,并表明當(dāng)前的水印模型在面對(duì)這些編輯時(shí)表現(xiàn)脆弱。圖像編輯主要會(huì)去除高頻波段的水印信息,而低頻波段的水印受影響較小。這一現(xiàn)象在某些模糊失真...
2025-04-15 09:38:42 1250瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2412.00857項(xiàng)目鏈接:https:nevsnev.github.ioFloED開(kāi)源地址:https:github.comNevSNevFloEDmain亮點(diǎn)直擊新穎的視頻修復(fù)模型。提出了一種專(zhuān)用的雙分支架構(gòu),通過(guò)流適配器(flowadapters)集成光流引導(dǎo),從而增強(qiáng)時(shí)空一致性并生成協(xié)調(diào)的結(jié)果。高效的去噪過(guò)程。引入了一種無(wú)需訓(xùn)練的隱空間插值技術(shù),利用光流加速多步去噪過(guò)程。結(jié)合流注意力緩存機(jī)制,F(xiàn)loED有效降低了由光流引入的額外計(jì)算成本。領(lǐng)先...
2025-04-14 10:00:49 809瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.07405項(xiàng)目鏈接:https:flexiptech.github.ioflexip亮點(diǎn)直擊雙適配器解耦設(shè)計(jì):首次將身份保持(PreservationAdapter)和個(gè)性化編輯(PersonalizationAdapter)顯式分離,避免特征競(jìng)爭(zhēng),實(shí)現(xiàn)更精準(zhǔn)的控制,優(yōu)于現(xiàn)有SOTA。動(dòng)態(tài)權(quán)重門(mén)控機(jī)制:通過(guò)連續(xù)可調(diào)參數(shù)動(dòng)態(tài)平衡身份保持與編輯強(qiáng)度,支持從細(xì)微調(diào)整到大幅變形的靈活控制,突破傳統(tǒng)“非此即彼”的限制。模態(tài)感知訓(xùn)練策略:根據(jù)數(shù)據(jù)特性(靜態(tài)圖...
2025-04-14 09:50:14 879瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.04842開(kāi)源地址:https:fantasyamap.github.iofantasytalking亮點(diǎn)直擊設(shè)計(jì)了一種雙階段視聽(tīng)對(duì)齊訓(xùn)練策略,以適配預(yù)訓(xùn)練的視頻生成模型:首先在片段級(jí)別建立與輸入音頻對(duì)應(yīng)的、包含背景和上下文對(duì)象(而不僅限于肖像本身)的連貫全局運(yùn)動(dòng),隨后構(gòu)建精確對(duì)齊的唇部運(yùn)動(dòng)以進(jìn)一步提升生成視頻的質(zhì)量。摒棄了傳統(tǒng)的參考網(wǎng)絡(luò)用于身份保持的方法,轉(zhuǎn)而設(shè)計(jì)了一個(gè)專(zhuān)注于面部的交叉注意力模塊,該模塊集...
2025-04-11 10:21:34 1434瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:huggingface.copapers2504.02160arXiv鏈接:https:arxiv.orgpdf2504.02160代碼鏈接:https:github.combytedanceUNO項(xiàng)目網(wǎng)頁(yè):https:bytedance.github.ioUNO亮點(diǎn)直擊提出了模型數(shù)據(jù)協(xié)同進(jìn)化范式,突破了傳統(tǒng)定制化圖像生成中數(shù)據(jù)瓶頸的限制。開(kāi)發(fā)了漸進(jìn)式數(shù)據(jù)生成框架和通用定制化模型UNO,實(shí)現(xiàn)了從單主體到多主體的高質(zhì)量圖像生成。在多個(gè)任務(wù)中取得了卓越的性能,包括單主體和多主體驅(qū)動(dòng)的圖像生成,并且能泛...
2025-04-11 10:10:18 1470瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2503.16795亮點(diǎn)直擊精確語(yǔ)義定位策略,用于在源圖像中進(jìn)行準(zhǔn)確的語(yǔ)義定位;插拔式雙層控制機(jī)制,通過(guò)語(yǔ)義定位增強(qiáng)編輯效果;RW800,一個(gè)用于評(píng)估基于擴(kuò)散transformer的編輯方法的挑戰(zhàn)性基準(zhǔn)。在廣泛使用的PIEBench和RW800基準(zhǔn)上評(píng)估了DCEdit。評(píng)估結(jié)果表明,與以往的方法相比,DCEdit在背景保留和編輯性能方面具有優(yōu)越性。效果展示在PIEBench上與基于UNet的擴(kuò)散方法和基于DiT的方法進(jìn)行的定性對(duì)比...
2025-04-10 10:32:34 1170瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章地址:https:arxiv.orgpdf2504.02312圖1:OmniCam概述。鑒于內(nèi)容參考和軌跡引導(dǎo)的不同形式,OmniCam通過(guò)相機(jī)運(yùn)動(dòng)控制生成高質(zhì)量的視頻序列。具體而言,OmniCam集成了內(nèi)容(如圖像或視頻)和軌跡(如文本指令或視頻中的相機(jī)運(yùn)動(dòng))參考的各種組合。這種方法使OmniCam能夠準(zhǔn)確合成與用戶(hù)指定輸入一致的視頻亮點(diǎn)直擊提出了OmniCam模型,該模型支持復(fù)雜靈活的控制,允許幀級(jí)控制,通過(guò)多模態(tài)實(shí)現(xiàn)軌跡控制,并能處理多模態(tài)數(shù)據(jù)。...
2025-04-07 09:29:26 1042瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.02261項(xiàng)目鏈接:https:wonderturbo.github.io從一幅圖像開(kāi)始,用戶(hù)可以自由調(diào)整視角,交互式地控制3D場(chǎng)景的生成,每次交互只需0.72秒亮點(diǎn)直擊提出了WonderTurbo,首個(gè)實(shí)時(shí)(推理耗時(shí):0.72秒)的3D場(chǎng)景生成方法,支持用戶(hù)交互式創(chuàng)建多樣化且連貫連接的場(chǎng)景。在幾何效率優(yōu)化方面,提出的StepSplat將前饋范式(feedforwardparadigm)擴(kuò)展至交互式3D幾何表示,可在0.26秒內(nèi)加速3D場(chǎng)景擴(kuò)展。此外...
2025-04-07 09:19:11 1357瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.00983開(kāi)源地址:https:haoyiduan.github.ioWorldScore亮點(diǎn)直擊提出了首個(gè)世界生成基準(zhǔn)WorldScore,支持對(duì)3D、4D、圖像到視頻(I2V)和文本到視頻(T2V)等多種方法進(jìn)行統(tǒng)一評(píng)估。為基準(zhǔn)測(cè)試精心構(gòu)建了一個(gè)高質(zhì)量、多樣化的數(shù)據(jù)集,涵蓋不同類(lèi)別的靜態(tài)與動(dòng)態(tài)場(chǎng)景,并包含多種視覺(jué)風(fēng)格。提出了WorldScore評(píng)估指標(biāo),綜合衡量世界生成模型的關(guān)鍵性能,包括可控性、質(zhì)量和動(dòng)態(tài)性。通過(guò)對(duì)17個(gè)開(kāi)源模...
2025-04-03 10:56:05 1440瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2503.21781項(xiàng)目鏈接:https:jasper0314huang.github.iovideomagecustomization亮點(diǎn)直擊提出了VideoMage,一個(gè)統(tǒng)一框架,首次實(shí)現(xiàn)了針對(duì)多個(gè)主體身份及其交互運(yùn)動(dòng)的視頻概念定制。引入了一種新穎的外觀無(wú)關(guān)運(yùn)動(dòng)學(xué)習(xí)方法,通過(guò)改進(jìn)負(fù)分類(lèi)器自由引導(dǎo),解耦潛在的運(yùn)動(dòng)模式與外觀之間的關(guān)系。開(kāi)發(fā)了一種時(shí)空協(xié)作組合方案,以組合獲得的多主體和運(yùn)動(dòng)LoRA,從而生成所需運(yùn)動(dòng)模式下連貫的多主體交互??偨Y(jié)...
2025-04-02 10:03:02 885瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
獲得成就
已積累 20.1w 人氣
獲得 2 個(gè)點(diǎn)贊
獲得 7 次收藏