多模態(tài)的數(shù)據(jù)通過統(tǒng)一的向量表示,可以實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)的互相檢索或者理解轉(zhuǎn)換,是多模態(tài)AI應(yīng)用的基石。Jina.ai最近推出了全新的通用多語言多模態(tài)向量模型JinaCLIPv2,在實(shí)現(xiàn)強(qiáng)大跨模態(tài)檢索可能的同時(shí),也為多模態(tài)RAG應(yīng)用奠定了基礎(chǔ)。Paper:https:arxiv.orgabs2405.20204Model:https:huggingface.cojinaaijinaclipv2概覽JinaCLIPV2是一款通用的、多語言、多模態(tài)(文本與圖像)Embedding模型多模態(tài)embedding技術(shù)能夠通過一致的...
2024-11-27 14:50:27 2992瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
GPTo1通過強(qiáng)化學(xué)習(xí)訓(xùn)練優(yōu)化決策策略,并模擬人類思維鏈以深入理解問題,提供更準(zhǔn)確的答案,在多個(gè)推理任務(wù)相關(guān)的榜單上實(shí)現(xiàn)了巨大的突破。而o1的思維過程是隱藏的。幻方旗下國產(chǎn)大模型公司DeepSeek近期預(yù)發(fā)布了R1模型,使用了強(qiáng)化學(xué)習(xí)訓(xùn)練,回復(fù)里包含大量反思和驗(yàn)證,思維鏈長度可達(dá)數(shù)萬字,并且沒有像o1一樣隱藏思維鏈。Demo:???https:chat.deepseek.com???[模型和技術(shù)報(bào)告將會(huì)開源]DeepSeekR1DeepSeekR1系列模型采用強(qiáng)...
2024-11-27 14:48:58 2737瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
近日,法國著名開源大模型平臺(tái)Mistral.ai,開源了一個(gè)1240億參數(shù)的超大多模態(tài)模型:PixtralLarge,在多個(gè)開源多模態(tài)評(píng)測上超越了GPT4o、Gemini1.5Pro、Claude3.5Sonnet、Llama3.2等商業(yè)模型或開源模型,成為目前最強(qiáng)的開源多模態(tài)大模型。?Demo:https:chat.mistral.aiBlog:https:mistral.ainewspixtrallargeModel:https:huggingface.comistralaiPixtralLargeInstruct2411太長不看第一梯隊(duì)的多模態(tài)性能在MathVista、DocVQA、VQAv...
2024-11-27 14:45:54 2515瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
最近在HuggingFace上有一個(gè)開源多模態(tài)模型引起了廣泛關(guān)注:Omnivision968M。這款模型以其不到1B參數(shù)量的小巧體積(僅968M參數(shù)量)脫穎而出,成為目前市場上最小的視覺語言模型之一。Blog:???https:nexa.aiblogsomnivision???Model:https:huggingface.coNexaAIDevomnivision968MOmnivision968M??Omnivision968M是由NexaAI這家創(chuàng)業(yè)公司推出(與國內(nèi)做CMOS聞名的同名半導(dǎo)體企業(yè)Omnivision無關(guān))。NexaAI的愿景是打造先進(jìn)的端...
2024-11-19 15:47:56 4960瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
Ultralytics在YOLOVision2024活動(dòng)上宣布發(fā)布其新的計(jì)算機(jī)視覺模型YOLO11。速度更快、更準(zhǔn)確。模型已于今日開源。Homepage:???https:www.ultralytics.comzhyolo???Github:???https:github.comultralyticsultralytics???YOLO11YOLO11標(biāo)志著YOLO家族的新篇章,提供了更強(qiáng)大,更多功能的模型,將計(jì)算機(jī)視覺帶到新的高度。憑借其完善的架構(gòu)和增強(qiáng)的功能,該模型支持計(jì)算機(jī)視覺任務(wù),如姿態(tài)估計(jì)和實(shí)例分割,視覺AI社區(qū)已...
2024-11-05 13:21:14 2024瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
BAAI剛剛開源了Emu3多模態(tài)大模型,僅使用單個(gè)transformer,使用下一個(gè)token預(yù)測的方法從0進(jìn)行訓(xùn)練!通過將圖像、文本和視頻tokenize到一個(gè)統(tǒng)一的離散的空間中,直接通過預(yù)測下一個(gè)token實(shí)現(xiàn)文本、圖像和視頻生成。Homepage:???https:emu.baai.ac.cn????Github:???https:github.combaaivisionEmu3???Model:https:huggingface.coBAAIEmu3GenEmu3Emu3在生成和感知任務(wù)中超越了多個(gè)任務(wù)的專用模型,表現(xiàn)優(yōu)于主流開源模...
2024-11-05 13:18:31 1827瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在LLM的訓(xùn)練時(shí),由于顯存不足以支撐起大batch訓(xùn)練,通常大家都會(huì)采用一種策略:梯度累計(jì)(gradientaccumulate)。這種方法允許模型在多個(gè)batch的梯度回傳累計(jì)并求均值之后,再更新一次權(quán)重。這樣做相當(dāng)于模擬了一個(gè)更大的批量大小,而實(shí)際上并沒有一次性處理那么多數(shù)據(jù)。這樣做的好處是,它可以減少內(nèi)存的使用,因?yàn)椴恍枰淮涡约虞d所有數(shù)據(jù)到GPU上,同時(shí)也可以享受等價(jià)大batch帶來的訓(xùn)練的穩(wěn)定性和模型的泛化能力。但是近期大...
2024-11-05 13:15:13 2232瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
DeepSeek開源了一個(gè)僅1.3B大小的多模態(tài)大模型:Janus(兩面神),統(tǒng)一了多模態(tài)理解和生成。通過將視覺編碼解耦成獨(dú)立的pathway,同時(shí)僅使用一個(gè)統(tǒng)一的transformer架構(gòu)進(jìn)行處理。Janus在多模態(tài)理解和生成基準(zhǔn)測試中超越了以往的統(tǒng)一模型,作為一個(gè)多模態(tài)“小”模型具有顯著的優(yōu)勢(shì)。Paper:???https:arxiv.orgabs2410.13848????Github:???https:github.comdeepseekaiJanus???Model:https:huggingface.codeepseekaiJan...
2024-11-01 16:24:39 2288瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
如果說2023年見證了大語言模型的“寒武紀(jì)大爆發(fā)”,那么2024年則是多模態(tài)大模型“元年”。GPT4o的出現(xiàn)讓大家見識(shí)到多模態(tài)能力引入,給下游應(yīng)用生態(tài)帶來的巨大改變。隨之而來的,RAG技術(shù)也將逐漸從單語言模態(tài)的RAG進(jìn)化到多模態(tài)RAG。本文將帶大家速覽多模態(tài)RAG技術(shù)的原理及實(shí)現(xiàn)。什么是RAG什么是RAG:RetrievalAugmentedGeneration,檢索增強(qiáng)生成。是一種結(jié)合了信息檢索技術(shù)和大型語言模型提示功能的框架。它通過從數(shù)據(jù)源檢索信息...
2024-11-01 15:56:59 3725瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
OpenGVLab新作:VisionModelPretrainingonInterleavedImageTextDataviaLatentCompressionLearningGithub:??https:github.comOpenGVLabLCL??Paper:https:arxiv.orgabs2406.07543視覺backbone的數(shù)據(jù)瓶頸CLIP是第一個(gè)連接圖像和文本的基礎(chǔ)模型,但在大模型時(shí)代,僅憑對(duì)比學(xué)習(xí)的監(jiān)督,已經(jīng)不足夠讓下游視覺語言模型(VLM)取得足夠好的性能,尤其是在OCR等細(xì)粒度、高分辨率視覺任務(wù)上。而且這類方法通常要求圖像和文本數(shù)據(jù)嚴(yán)格...
2024-11-01 15:52:51 1967瀏覽 0點(diǎn)贊 0回復(fù) 0收藏