自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AIRoobt
LV.4
AI人工智能、機器人、具身智能、大模型、機器學習、深度學習技術
聲望 569
關注 0
粉絲 1
私信
主帖 55
回帖
摘要最近的研究表明,預訓練的擴散變換器(DiTs)具備inherentincontext生成能力,能夠通過最小或無需架構修改即可適應多種視覺任務。這些能力通過連接多個輸入和目標圖像的自注意力token,并結合分組和掩碼生成pipeline來實現(xiàn)?;谶@一基礎,我們提出了ChatDiT,這是一個零樣本、通用、交互式的視覺生成框架,利用預訓練的擴散變換器,無需額外的調整、適配器或修改。用戶可以與ChatDiT交互,創(chuàng)建交錯的圖文文章、多頁圖畫書...
1天前 174瀏覽 0點贊 0回復 0收藏
摘要大型語言模型在各種自然語言處理任務中取得了令人矚目的性能。然而,它們主要在所有輸入上下文信息都與任務相關的情況下進行評估。在本研究中,我們探討了大型語言模型的分心問題,即模型解決問題的準確性如何受到無關上下文的影響。具體而言,我們引入了帶有無關上下文的小學數學(GSMIC),這是一個包含無關信息的算術推理數據集。我們利用這一基準測試來衡量大型語言模型的最新提示技術,并發(fā)現(xiàn)當包含無關信息時,模型性...
1天前 187瀏覽 0點贊 0回復 0收藏
摘要多模態(tài)大型語言模型(MLLMs)在視覺理解和生成任務中取得了顯著進展。然而,生成交錯的圖文內容仍然是一個挑戰(zhàn),這需要集成多模態(tài)理解和生成能力。盡管統(tǒng)一模型的進展提供了新的解決方案,但現(xiàn)有基準由于數據規(guī)模和多樣性的限制,不足以評估這些方法。為了填補這一空白,我們引入了OpenING,這是一個綜合基準,包含56個真實世界任務的5400個高質量人工標注實例。OpenING涵蓋了旅游指南、設計和頭腦風暴等多樣化的日常場景,...
1天前 227瀏覽 0點贊 0回復 0收藏
摘要我們提出了PixelFlow,這是一系列直接在原始像素空間中運行的圖像生成模型,與主流的隱空間模型形成對比。這種方法通過消除對預訓練變分自編碼器(VAE)的需求,簡化了圖像生成過程,并使整個模型能夠端到端訓練。通過高效的級聯(lián)流建模,PixelFlow在像素空間中實現(xiàn)了可承受的計算成本。在256×256ImageNet類條件圖像生成基準上,它實現(xiàn)了1.98的FID。定性的文本到圖像結果表明,PixelFlow在圖像質量、藝術性和語義控制方面表...
6天前 369瀏覽 0點贊 0回復 0收藏
摘要推理大語言模型(LLMs)正在各個領域快速發(fā)展,但其處理復雜金融問題的能力仍需深入探索。本文介紹了FinR1,一個專為金融推理設計的大語言模型。該模型參數規(guī)模輕量(70億),顯著降低了部署成本,同時有效解決了金融領域的三大痛點:碎片化的金融數據、不可控的推理邏輯以及薄弱的業(yè)務泛化能力。為提升模型推理能力,我們首先通過從多個權威數據集蒸餾和篩選,構建了FinR1Data——一個包含約60,091條完整思維鏈(CoT)的高...
2025-04-07 06:34:20 1049瀏覽 0點贊 0回復 0收藏
LawLLM:面向美國法律體系的法律大語言模型
原創(chuàng) 精華
頭條 社區(qū)頭條
摘要在法律分析這一快速發(fā)展的領域中,由于法律語言的復雜性(通常包含專業(yè)術語、復雜句法和歷史背景),尋找相關案例并準確預測司法結果具有挑戰(zhàn)性。此外,相似案例與判例案例之間的微妙差異需要深厚的法律知識理解。研究人員常常混淆這些概念,導致難以開發(fā)專門技術來有效處理這些細致入微的任務。本文介紹了法律大語言模型(LawLLM),這是一個專為美國法律領域設計的、能夠應對這些挑戰(zhàn)的多任務模型。LawLLM在相似案例檢索...
2025-04-03 11:12:13 1105瀏覽 1點贊 0回復 0收藏
視覺指令調優(yōu)
原創(chuàng)
摘要使用機器生成的指令跟隨數據對大型語言模型(LLMs)進行指令調優(yōu)已被證明可以提高其在新任務上的零樣本(zeroshot)能力,但在多模態(tài)領域,這一想法尚未得到充分探索。我們首次嘗試使用純語言的GPT4生成多模態(tài)語言圖像指令跟隨數據,并通過在這些生成數據上進行指令調優(yōu),引入了LLaVA:一個連接視覺編碼器和語言模型的端到端訓練的大型多模態(tài)模型,用于通用視覺和語言理解。為了促進未來對視覺指令跟隨的研究,我們構建了兩...
2025-03-10 08:08:40 1437瀏覽 0點贊 0回復 0收藏
摘要:現(xiàn)有的對齊已有能力模型與期望行為的方法通常依賴于人類提供監(jiān)督的能力。然而,未來的超人類模型將超越人類的能力。因此,人類將只能對超人類模型進行弱監(jiān)督。這種預期的人類評估不足將削弱未來AI系統(tǒng)的安全性??蓴U展監(jiān)督和從弱到強的泛化是解決這一問題的兩種互補方法。在本文中,我們嘗試結合這兩種方法的優(yōu)勢,以進一步改進對齊。具體來說,我們研究了如何通過一個強大的預訓練模型來改進人類監(jiān)督,然后用增強的弱人...
2025-03-06 09:34:03 1655瀏覽 0點贊 0回復 0收藏
摘要:最近的多模態(tài)大語言模型(MLLMs)在視覺語言任務(如圖像描述和問答)中表現(xiàn)出色,但缺乏關鍵的感知能力,即目標檢測。本文提出了一種新的研究問題——上下文目標檢測,即在人機交互的上下文中理解可見物體。我們研究了三種代表性場景:語言填空測試、視覺描述生成和問答。此外,我們提出了ContextDET,一種統(tǒng)一的多模態(tài)模型,能夠端到端地對視覺語言上下文進行可微分建模,從而定位、識別并將視覺對象與語言輸入關聯(lián)起來...
2025-03-06 09:33:13 1849瀏覽 0點贊 0回復 0收藏
OpenAI GPT-4.5 系統(tǒng)卡片
原創(chuàng)
頭條 社區(qū)頭條
1.引言我們正在發(fā)布OpenAIGPT4.5的研究預覽版,這是我們迄今為止最大且知識最豐富的模型。GPT4.5基于GPT4o構建,進一步擴展了預訓練規(guī)模,并被設計為比我們強大的STEM領域推理模型更具通用性。我們使用新的監(jiān)督技術結合傳統(tǒng)方法(如監(jiān)督微調[SFT]和基于人類反饋的強化學習[RLHF])對其進行訓練,這些方法與GPT4o的訓練方法類似。在部署前,我們進行了廣泛的安評評估,未發(fā)現(xiàn)與現(xiàn)有模型相比存在顯著的安全風險增加。早期測試表明...
2025-03-03 09:45:58 2462瀏覽 0點贊 0回復 0收藏
智能體被認為是從人工智能通向通用人工智能(AGI)的潛在路徑。因此,研究人員為實現(xiàn)智能體投入了大量努力,探索了多種實現(xiàn)方式。得益于近期大型語言模型(LLMs)的進展,以通用自然語言作為接口的基于LLM的智能體在多種應用中展現(xiàn)出強大的泛化能力——從作為自主的通用任務助手,到在編碼、社會和經濟等領域中的應用,基于LLM的智能體為廣泛的探索提供了可能性。本文調研了當前研究現(xiàn)狀,深入概述了基于LLM的智能體,包括單智...
2025-03-03 09:43:18 4070瀏覽 0點贊 0回復 0收藏
?摘要:近年來,提示學習技術的發(fā)展使用戶能夠通過多輪對話與人工智能(AI)工具互動,從而實現(xiàn)對圖像的交互式理解。然而,僅靠普通語言指令難以有效傳遞復雜遙感(RS)場景中的信息,這限制了對圖像潛在內容的深入理解。此外,由于自然場景和遙感數據在領域上的顯著差異,現(xiàn)有的提示策略難以直接應用于遙感數據解讀。為解決這些問題,本文提出了首個基于視覺提示的多模態(tài)大語言模型(MLLM),名為EarthMarker,用于遙感領域。EarthM...
2025-01-07 08:00:50 3284瀏覽 0點贊 0回復 0收藏
摘要:大語言模型(LLMs)的顯著成功將自然語言處理(NLP)研究帶入了一個新時代。盡管其功能多樣,但基于不同語料庫訓練的LLMs表現(xiàn)出各自的優(yōu)勢與劣勢,這對提升其整體效率與多功能性提出了挑戰(zhàn)。為了解決這些挑戰(zhàn),近期的研究探索了LLMs的協(xié)作策略。本文對這一新興研究領域進行了全面綜述,闡述了協(xié)作研究的動機。具體而言,我們將協(xié)作策略分為三種主要方法:融合、集成與合作。融合涉及在參數空間內整合多個LLMs;集成結合了...
2024-12-27 10:03:25 2999瀏覽 0點贊 0回復 0收藏
圖1:從在ImageNet上訓練的視覺自回歸(VAR)Transformer生成的樣本。展示了512×512的生成樣本(頂部)、256×256的生成樣本(中部)以及零樣本圖像編輯結果(底部)。摘要:我們提出了一種新的生成范式——視覺自回歸建模(VAR),將圖像上的自回歸學習重新定義為從粗到精的“下一尺度預測”或“下一分辨率預測”,區(qū)別于傳統(tǒng)的光柵掃描式“下一個標記預測”。這種簡單直觀的方法使自回歸(AR)Transformer能夠更快地學習視覺分...
2024-12-18 13:57:16 3252瀏覽 0點贊 0回復 0收藏
摘要:大型語言模型(LLMs)在復雜任務中展示了令人印象深刻的推理能力。然而,它們缺乏最新的知識,并在推理過程中出現(xiàn)幻覺,這可能導致不正確的推理過程,從而降低其性能和可信度。知識圖譜(KGs)以結構化格式捕捉大量事實,為推理提供了可靠的知識來源。然而,現(xiàn)有的基于KG的LLM推理方法僅將KG視為事實知識庫,忽視了其結構信息在推理中的重要性。在本文中,我們提出了一種新方法,稱為圖上推理(RoG),它將LLMs與KGs協(xié)同...
2024-12-17 15:31:22 2477瀏覽 0點贊 0回復 0收藏
?摘要:開源大型語言模型(LLMs)的快速發(fā)展確實令人矚目。然而,先前文獻中描述的擴展規(guī)律呈現(xiàn)出不同的結論,這為擴展LLMs蒙上了一層陰影。我們深入研究了擴展規(guī)律,并提出了我們獨特的發(fā)現(xiàn),這有助于在兩種普遍使用的開源配置中擴展大規(guī)模模型,即7B和67B。在擴展規(guī)律的指導下,我們介紹了DeepSeekLLM,這是一個致力于從長遠角度推進開源語言模型的項目。為了支持預訓練階段,我們已經開發(fā)了一個目前由2萬億個token組成的數...
2024-10-14 19:54:32 6298瀏覽 0點贊 0回復 0收藏
?摘要:我們介紹了ChatGLM,這是我們持續(xù)開發(fā)的大規(guī)模語言模型家族。本報告主要聚焦于GLM4系列語言模型,包括GLM4、GLM4Air和GLM49B。它們是我們最強大的模型,集成了前三代ChatGLM的所有經驗和教訓。迄今為止,GLM4模型在中文和英文的十萬億個標注符號上進行了預訓練,并輔以來自24種語言的小型語料庫,主要為中英文使用進行了對齊。高質量的對齊通過多階段后訓練過程實現(xiàn),包括監(jiān)督微調和從人類反饋中學習。評估表明,GLM4在...
2024-10-14 19:12:04 4870瀏覽 0點贊 0回復 0收藏
摘要:與人類類似,大型語言模型(LLMs)并不總是在第一次嘗試時生成最佳輸出。受人類改進書面文本方式的啟發(fā),我們提出了SELFREFINE,這是一種通過迭代反饋和優(yōu)化來改進LLMs初始輸出的方法。主要思想是首先使用LLM生成初始輸出;然后,由同一個LLM對其輸出提供反饋,并使用該反饋對其進行自我優(yōu)化。SELFREFINE不需要任何監(jiān)督訓練數據、額外的訓練或強化學習,而是使用單一的LLM作為生成器、優(yōu)化器和反饋提供者。我們在7項不同...
2024-10-14 19:08:17 3507瀏覽 0點贊 0回復 0收藏
?摘要:回答需要做出潛在決策的復雜問題是一項具有挑戰(zhàn)性的任務,特別是在監(jiān)督數據有限的情況下。最近的研究利用大型語言模型(LM)的能力,通過在單次推理過程中演示如何輸出中間推理步驟,以少量示例解決復雜問題。我們提出了“逐次提示”方法,通過迭代將復雜任務分解為簡單任務,逐步解決,直到得到最終答案。逐次提示將復雜問題分解的監(jiān)督與簡單問題回答的監(jiān)督解耦,使我們能夠(1)在每個推理步驟有多次機會查詢上下文示...
2024-09-20 14:14:48 4927瀏覽 0點贊 0回復 0收藏
01.Complexitybasedpromptingformultistepreasoning(ICLR2023)基于復雜度的提示方法用于多步推理摘要:我們研究了如何提示大規(guī)模語言模型進行多步推理。已有研究表明,當使用鏈式思考(CoT)提示,即用一系列短句描述從問題到答案的中間推理步驟時,大型語言模型能夠為新的輸入生成新的推理鏈并預測答案。本研究的核心問題是:哪些推理示例能成為最有效的提示?為此,我們提出了基于復雜度的提示方法,一種用于多步推理的簡單...
2024-09-09 13:17:22 3581瀏覽 0點贊 0回復 0收藏
獲得成就
已積累 4.0w 人氣
獲得 1 個點贊
獲得 0 次收藏