可縮放矢量圖形(ScalableVectorGraphics,SVG)是用于描述二維圖型和圖型應(yīng)用程序的基本元素;與傳統(tǒng)的像素圖形不同,SVG使用數(shù)學(xué)描述來定義圖形,因此可以在任何大小下無損地縮放而不失真。這使得SVG成為網(wǎng)站設(shè)計(jì)領(lǐng)域的理想選擇,特別是在需要適應(yīng)不同分辨率和設(shè)備的情況下。但是創(chuàng)作者手工設(shè)計(jì)SVG是高成本并具有挑戰(zhàn)的。最近,隨著CLIP和生成式模型的快速發(fā)展,文本引導(dǎo)的矢量圖合成(TexttoSVG)在抽象像素風(fēng)格[1,2]和矢量...
2024-04-08 10:21:43 3019瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
我們?cè)贕itHub上開源了一個(gè)個(gè)性化聯(lián)邦學(xué)習(xí)算法倉庫(PFLlib),目前已經(jīng)獲得1K+個(gè)Star和200+個(gè)Fork,在業(yè)內(nèi)收到了廣泛的好評(píng)。PFLlib囊括了34個(gè)聯(lián)邦學(xué)習(xí)算法(其中包含27個(gè)個(gè)性化聯(lián)邦學(xué)習(xí)算法)、3大類數(shù)據(jù)異質(zhì)場(chǎng)景、20個(gè)數(shù)據(jù)集。?開源該倉庫的主要目的是:1)降低初學(xué)者研究個(gè)性化聯(lián)邦學(xué)習(xí)算法的門檻;2)提供一個(gè)統(tǒng)一的實(shí)驗(yàn)環(huán)境,在多種場(chǎng)景和多個(gè)方面對(duì)不同個(gè)性化聯(lián)邦學(xué)習(xí)算法進(jìn)行評(píng)估,為個(gè)性化聯(lián)邦學(xué)習(xí)算法在具體場(chǎng)景中應(yīng)...
2024-04-08 10:08:01 2809瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
論文題目:OPERA:AlleviatingHallucinationinMultiModalLargeLanguageModelsviaOverTrustPenaltyandRetrospectionAllocation論文地址:??https:arxiv.orgabs2311.17911??代碼地址:??https:github.comshikiwOPERA??01背景從LLaVA到QwenVL,從GPT4V到Claude3,幻覺(Hallucination)問題一直是當(dāng)前多模態(tài)大模型(MLLM)的重要問題。當(dāng)前大多數(shù)的多模態(tài)大模型對(duì)于用戶提供的圖像和提問,容易因?yàn)榛糜X給出非常離譜的回答,...
2024-04-02 12:17:21 4721瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
論文題目:ClongEval:AChineseBenchmarkforEvaluatingLongContextLargeLanguageModels論文地址:??https:arxiv.orgabs2403.03514??代碼地址:??https:github.comzexuanqiuCLongEval??01研究背景和貢獻(xiàn)為了使LLM能夠支持更復(fù)雜和多樣化的應(yīng)用,越來越多的研究致力于擴(kuò)展LLM能夠處理的上下文窗口。為了評(píng)估這些longcontextLLM支持長上下文能力,目前英文領(lǐng)域有幾個(gè)數(shù)據(jù)集被提出(如LongBench,LEval,LooGLE)。然而,在中...
2024-04-02 12:06:30 4904瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
隨著生成模型(如ChatGPT、擴(kuò)散模型)飛速發(fā)展,一方面,生成數(shù)據(jù)質(zhì)量越來越高,到了以假亂真的程度;另一方面,隨著模型越來越大,也使得人類世界的真實(shí)數(shù)據(jù)即將枯竭。面對(duì)這一處境,一個(gè)近期的研究熱度是,能否利用生成模型生成的假數(shù)據(jù)來輔助學(xué)習(xí)?學(xué)界對(duì)此也產(chǎn)生了許多爭(zhēng)論:到底是可以左腳踩右腳(bootsrap)地實(shí)現(xiàn)weaktostrong的不斷提升,還是像雞生蛋、蛋生雞一樣,只不過是徒勞無功?在近期ICLR2024工作中,北大王奕森...
2024-04-02 12:02:34 2430瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
01引言當(dāng)LoRA遇見MoE,會(huì)擦出怎樣的火花?▲左側(cè):原始版本的LoRA,權(quán)重是稠密的,每個(gè)樣本都會(huì)激活所有參數(shù);右側(cè):與混合專家(MoE)框架結(jié)合的LoRA,每一層插入多個(gè)并行的LoRA權(quán)重(即MoE中的多個(gè)專家模型),路由模塊(Router)輸出每個(gè)專家的激活概率,以決定激活哪些LoRA模塊。由于大模型全量微調(diào)時(shí)的顯存占用過大,LoRA、Adapter、IA這些參數(shù)高效微調(diào)(ParameterEfficientTuning,簡(jiǎn)稱PEFT)方法便成為了資源有限的機(jī)構(gòu)...
2024-03-28 14:03:30 3350瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖像超分辨率技術(shù)旨在將低分辨率圖像轉(zhuǎn)換為高分辨率圖像,從而提高圖像的清晰度和細(xì)節(jié)真實(shí)性。隨著超分技術(shù)的發(fā)展和手機(jī)硬件性能的提升,人們期望拍攝出更加清晰的照片。這項(xiàng)技術(shù)在手機(jī)影像等領(lǐng)域有著廣泛的應(yīng)用和需求。然而,現(xiàn)有的超分方法存在一些局限性,如下圖所示,主要有以下兩個(gè)方面:一是缺乏泛化能力。為了實(shí)現(xiàn)更好的超分效果,通常需要針對(duì)特定場(chǎng)景使用特定傳感器采集到的數(shù)據(jù)來進(jìn)行模型訓(xùn)練,這種學(xué)習(xí)方式擬合了某...
2024-03-28 13:59:18 2911瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
論文標(biāo)題:PreAct:PredictingFutureinReActEnhancesAgent’sPlanningAbility論文鏈接:??https:arxiv.orgabs2402.11534??代碼鏈接:??https:github.comFuDayuanPreAct??01概述1.1背景大語言模型(LLM)已顯示出一定的規(guī)劃和決策能力。利用這種能力,ReAct將環(huán)境信息和智能體(Agent)可執(zhí)行的行動(dòng)提供給大語言模型,就可以利用它確定當(dāng)前狀態(tài)下需要執(zhí)行的行動(dòng)。然而,ReAct系統(tǒng)通常生成單一、直接的因果推理路徑,這限...
2024-03-28 13:54:35 3905瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
通用計(jì)算機(jī)控制信息革命產(chǎn)生了數(shù)字世界,數(shù)字世界為大模型的誕生提供了數(shù)據(jù),也最容易實(shí)現(xiàn)通用人工智能(AGI)。向數(shù)字世界AGI邁進(jìn),北京智源人工智能研究院、新加坡南洋理工大學(xué)、北京大學(xué)攜手提出通用計(jì)算機(jī)控制GeneralComputerControl(GCC),即智能體需要像人一樣看屏幕,通過鍵盤、鼠標(biāo)完成計(jì)算機(jī)上的所有任務(wù)。在過去很長一段時(shí)間里,人工智能研究以游戲?yàn)閳?chǎng)景,而GCC將為通用人工智能研究提供場(chǎng)景,也將進(jìn)一步促進(jìn)大模型...
2024-03-28 13:48:35 3757瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在2024世界經(jīng)濟(jì)論壇的一次會(huì)談中,圖靈獎(jiǎng)得主YannLeCun提出用來處理視頻的模型應(yīng)該學(xué)會(huì)在抽象的表征空間中進(jìn)行預(yù)測(cè),而不是具體的像素空間[1]。借助文本信息的多模態(tài)視頻表征學(xué)習(xí)可抽取利于視頻理解或內(nèi)容生成的特征,正是促進(jìn)該過程的關(guān)鍵技術(shù)。然而,當(dāng)下視頻與文本描述間廣泛存在的噪聲關(guān)聯(lián)現(xiàn)象嚴(yán)重阻礙了視頻表征學(xué)習(xí)。因此本文中,研究者基于最優(yōu)傳輸理論,提出魯棒的長視頻學(xué)習(xí)方案以應(yīng)對(duì)該挑戰(zhàn)。該論文被機(jī)器學(xué)習(xí)頂會(huì)ICL...
2024-03-28 13:35:39 2210瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
論文題目:OntheFeasibilityofSimpleTransformerforDynamicGraphModeling論文鏈接:??https:arxiv.orgpdf2401.14009.pdf??代碼鏈接:??https:github.comYuxiaWuSimpleDyG??論文錄用:TheWebConference2024MainConference作者主頁:??https:yuxiawu.github.io??01摘要?jiǎng)討B(tài)圖建模在理解Web圖中的復(fù)雜結(jié)構(gòu)方面至關(guān)重要,涉及社交網(wǎng)絡(luò)、推薦系統(tǒng)等多個(gè)應(yīng)用領(lǐng)域?,F(xiàn)有方法主要注重結(jié)構(gòu)依賴性及其時(shí)序變化模式,但通常忽...
2024-03-28 12:56:18 3235瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
01引言這是UIUCZifengWang等發(fā)表在ICLR'24上的論文。論文題目:BioBridge:BridgingBiomedicalFoundationModelsviaKnowledgeGraphs論文鏈接:??https:arxiv.orgpdf2310.03320.pdf??在生物醫(yī)學(xué)研究領(lǐng)域,一直以來,基礎(chǔ)模型(FoundationModels,簡(jiǎn)稱FMs)大多局限于單一模態(tài)的數(shù)據(jù)處理,比如僅僅專注于蛋白質(zhì)序列、小分子結(jié)構(gòu)或者是臨床數(shù)據(jù)分析。這種單模態(tài)的處理框架雖然在特定任務(wù)上表現(xiàn)出色,但在應(yīng)對(duì)多樣化的生物醫(yī)學(xué)數(shù)...
2024-03-28 12:38:38 3038瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
近期,RAG(RetrievalAugmentedGeneration)在AI領(lǐng)域引起了廣泛關(guān)注,成為了眾多研究者和開發(fā)者熱議的焦點(diǎn)。作為一種將檢索與生成相結(jié)合的技術(shù),RAG展示了在各種任務(wù)中,如問答、對(duì)話生成和文本摘要等,取得卓越成果的潛力。它的出現(xiàn)為解決復(fù)雜問題提供了新的視角,使得人工智能在理解和回應(yīng)用戶需求方面更加精準(zhǔn)和高效。RAG的重要性不容忽視,它為AI領(lǐng)域帶來了創(chuàng)新的思路和突破性的進(jìn)展。越來越多的研究者和開發(fā)者開始關(guān)注并投...
2024-03-28 12:33:07 3477瀏覽 0點(diǎn)贊 0回復(fù) 1收藏
論文題目:AttentionIsNottheOnlyChoice:CounterfactualReasoningforPathBasedExplainableRecommendation論文鏈接:????https:arxiv.orgpdf2401.05744??近日,悉尼科技大學(xué)徐貫東教授團(tuán)隊(duì),聯(lián)合香港中文大學(xué)、昆士蘭大學(xué)、香港理工大學(xué)、以及新加坡南洋理工大學(xué)等多家單位,發(fā)布了基于路徑反事實(shí)推理的推薦系統(tǒng)解釋新方法,并提出了一系列全新的定性和定量的解釋性評(píng)價(jià)標(biāo)準(zhǔn),引發(fā)同行廣泛關(guān)注。01反事實(shí)推理的解釋的背景...
2024-03-28 12:28:02 3258瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
2024是大模型落地應(yīng)用的關(guān)鍵年,接下來會(huì)看到更多從硬件、架構(gòu)、算法等方面極限挖掘大模型效率的探索。眾人拾柴火焰高,相信在大家共同的開源努力下,我們可以更快奔向AGI的目標(biāo)。——摘自劉知遠(yuǎn)老師最近對(duì)Google發(fā)布Gemma后發(fā)的一條朋友圈寫在前面:Google最近也勁爆放出Gemma模型,盡管體量較小,但對(duì)比的包括Llama27B和13B,以及風(fēng)頭正勁的Mistral7B,其已經(jīng)在關(guān)鍵基準(zhǔn)測(cè)試中明顯超越了更大的模型。大家都在感嘆最強(qiáng)的開源模...
2024-03-28 12:22:18 4001瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
論文題目:AllinaSingleImage:LargeMultimodalModelsareInImageLearners論文鏈接:??https:arxiv.orgabs2402.17971??開源鏈接:https:github.comAGIEdgerunnersInImageLearning01動(dòng)機(jī)和背景?近年來,大語言模型取得了顯著的成功。盡管GPT4V有強(qiáng)大的文本理解和圖片輸入能力,但仍存在許多問題。例如,在讀取一張復(fù)雜圖片時(shí),無法完全理解圖像中呈現(xiàn)的信息。在本文中,我們提出了一種新的上下文學(xué)習(xí)機(jī)制——InImageLearning...
2024-03-28 12:00:14 2314瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
第一步在常見AI作圖模型輸入「一只胖胖的像面包的橘貓」,畫出一只長得很像面包的貓貓,然后用概念半透膜SPM技術(shù),將貓貓這個(gè)概念擦掉,結(jié)果它就失去夢(mèng)想變成了一只面包。上圖1是更多的貓貓圖失去貓這個(gè)概念后的結(jié)果?!鴪D1.概念半透膜SPM針對(duì)不同的「貓」圖擦除貓概念后的效果下圖2到圖6展示了更多的示例?!鴪D2.失去夢(mèng)想變成一只面包表情包▲圖3.西裝光劍米老鼠圖擦除米老鼠概念▲圖4.稻田里的史努比圖擦除史努比概念▲圖5.梵...
2024-03-28 11:44:50 2140瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
01研究背景目前,由大型語言模型(LLM)驅(qū)動(dòng)的智能體已經(jīng)證明了它們?cè)谔幚韽?fù)雜任務(wù)方面的顯著潛力。此外,通過賦予LLM代碼執(zhí)行能力來提升其問題解決能力正逐漸成為一種趨勢(shì),這一點(diǎn)已經(jīng)通過CodeInterpreter[1]、OpenInterpreter[2]、TaskWeaver[3]等工作得到了實(shí)踐驗(yàn)證。然而,在數(shù)據(jù)科學(xué)領(lǐng)域,面對(duì)數(shù)據(jù)的實(shí)時(shí)變化、任務(wù)間依賴關(guān)系復(fù)雜、流程優(yōu)化的專業(yè)性,以及執(zhí)行結(jié)果反饋的邏輯一致性識(shí)別等挑戰(zhàn),現(xiàn)有LLMbased智能體的性能仍...
2024-03-28 09:51:01 2709瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在ChatGPT引爆AI圈之后,很多人預(yù)言2024年將會(huì)是多模態(tài)的元年。的確,我們?cè)?3年的最后一季度見證了GPT4V的發(fā)布,前不久Google家的Gemini和Anthropic的Claude3也同樣支持多模態(tài)(MultimodaltoText),并且Gemini1.5中能夠從兩小時(shí)的視頻中準(zhǔn)確“撈針”出其中一幀包含的畫面。國內(nèi)這方面的工作以QwenVL為代表,也同樣取得了非常不錯(cuò)的效果。我們最近也在大視覺語言模型(LMM)做了一些嘗試,發(fā)布了RekaFlash,能夠接受圖片、音頻...
2024-03-28 09:42:50 2853瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
多模態(tài)技術(shù)是AI多樣化場(chǎng)景應(yīng)用的重要基礎(chǔ),多模態(tài)大模型(MLLM)展現(xiàn)出了優(yōu)秀的多模態(tài)信息理解和推理能力,正成為人工智能研究的前沿?zé)狳c(diǎn)。然而,與大語言模型一樣,多模態(tài)大模型也依然受到“幻覺”問題的困擾,即模型在回答中出現(xiàn)與圖片信息不符的內(nèi)容。經(jīng)過測(cè)試發(fā)現(xiàn),即便是GPT4V也會(huì)在45.9%的圖片回答中出現(xiàn)明顯的“幻覺”。大模型出現(xiàn)“幻覺”的癥結(jié)之一在于未經(jīng)人類對(duì)齊時(shí)發(fā)生的“過泛化”情況。例如,讓模型描述街景圖片...
2024-03-28 09:34:22 3471瀏覽 0點(diǎn)贊 0回復(fù) 0收藏