自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

arnoldzhw
LV.3
這個(gè)用戶很懶,還沒有個(gè)人簡介
聲望 312
關(guān)注 0
粉絲 0
私信
主帖 35
回帖
大家好,我是HxShine今天分享一篇香港科技大學(xué)、DeepSeekAI和上海交通大學(xué)聯(lián)合發(fā)表的文章,標(biāo)題為:CODEIO:CondensingReasoningPatternsviaCodeInputOutputPrediction(CODEIO:通過代碼輸入輸出預(yù)測濃縮推理模式)。這篇文章提出了一種名為CODEIO的新方法,旨在通過代碼輸入輸出預(yù)測來提煉和濃縮代碼中蘊(yùn)含的多種推理模式,從而提升大語言模型(LLMs)的推理能力。該方法的核心思想是將代碼轉(zhuǎn)換為一種輸入輸出預(yù)測任務(wù),讓模型...
9天前 600瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
什么是AgentR1AgentR1是由中科大認(rèn)知智能全國重點(diǎn)實(shí)驗(yàn)室開發(fā)的智能體強(qiáng)化學(xué)習(xí)訓(xùn)練框架,致力于推進(jìn)強(qiáng)化學(xué)習(xí)與智能體技術(shù)的融合發(fā)展??蚣懿捎枚说蕉藦?qiáng)化學(xué)習(xí)方法,突破了依賴人工設(shè)計(jì)工作流的傳統(tǒng)智能體開發(fā)瓶頸,讓AI直接從與環(huán)境的交互中學(xué)習(xí)最優(yōu)策略,實(shí)現(xiàn)自主決策與行動(dòng)。開發(fā)者只需定義特定領(lǐng)域的工具和獎(jiǎng)勵(lì)函數(shù),即可將AgentR1擴(kuò)展到各種應(yīng)用場景,無需編寫復(fù)雜的工作流程。背景隨著大型語言模型(LLM)技術(shù)的快速發(fā)展,智...
2025-04-09 06:29:20 911瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇伊利諾伊大學(xué)的文章,標(biāo)題為:SearchR1:TrainingLLMstoReasonandLeverageSearchEngineswithReinforcementLearning(SearchR1:利用強(qiáng)化學(xué)習(xí)訓(xùn)練LLM進(jìn)行推理并利用搜索引擎)。這篇文章是關(guān)于如何訓(xùn)練大型語言模型(LLMs)有效地利用搜索引擎來增強(qiáng)其推理和文本生成能力。論文提出了一個(gè)名為SEARCHR1的框架,該框架僅僅通過強(qiáng)化學(xué)習(xí)(RL)讓LLM學(xué)習(xí)如何在逐步推理過程中自主生成搜索查詢并與實(shí)時(shí)檢索交互。該方法特...
2025-03-27 00:09:53 1062瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇西湖大學(xué)張?jiān)览蠋煹囊黄煤铣赏评頂?shù)據(jù)做論文評(píng)審文章,Title:DeepReview:ImprovingLLMbasedPaperReviewwithHumanlikeDeepThinkingProcess:通過合成類人深度思考過程改進(jìn)基于LLM的論文評(píng)審效果。這篇文章探索了如何利用大型語言模型(LLM)來改進(jìn)論文評(píng)審過程,提出了一個(gè)多階段框架DeepReview,通過結(jié)合結(jié)構(gòu)化分析、文獻(xiàn)檢索和基于證據(jù)的論證,模擬專家評(píng)審員的深度思考過程,從而提高LLM在論文評(píng)審中的可靠性...
2025-03-14 00:48:05 1776瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、概述title:YouTrulyUnderstandWhatINeed:IntellectualandFriendlyDialogueAgentsgroundingKnowledgeandPersona論文地址:https:aclanthology.org2022.findingsemnlp.75代碼地址:https:github.comdlawjddn803INFO1.1Motivation以前的研究將知識(shí)或個(gè)人資料混合融入預(yù)先訓(xùn)練的語言模型。其同時(shí)考慮知識(shí)和人物角色的能力仍然是有限的,導(dǎo)致生成結(jié)果出現(xiàn)幻覺,并且使用人物角色的方法也很被動(dòng)。1.2Methods提出一種有效的agent...
2025-03-04 10:28:34 1533瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇來自上海人工智能實(shí)驗(yàn)室、清華大學(xué)、哈爾濱工業(yè)大學(xué)和北京郵電大學(xué)聯(lián)合的一篇文章,標(biāo)題是:Can1BLLMSurpass405BLLMRethinkingComputeOptimalTestTimeScaling(1B的LLM能否超越405B的LLM?重新思考計(jì)算最優(yōu)的測試時(shí)縮放)。這篇文章研究了大型語言模型(LLMs)在「推理階段通過增加計(jì)算量來提高性能的測試時(shí)縮放」(TestTimeScaling,TTS)方法。作者們「系統(tǒng)地分析了策略模型、過程獎(jiǎng)勵(lì)模型(PRMs)和問題難度如何...
2025-02-24 11:01:35 1645瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享DeepSeekR1,Title:DeepSeekR1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning:通過強(qiáng)化學(xué)習(xí)激勵(lì)LLM的推理能力。這篇文章介紹了DeepSeek的第一代推理模型DeepSeekR1Zero和DeepSeekR1。DeepSeekR1Zero模型通過大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,沒有監(jiān)督微調(diào)(SFT)作為初步步驟,展示了RL的潛力及其帶來的卓越的推理能力。通過強(qiáng)化學(xué)習(xí),DeepSeekR1Zero自然而然地涌現(xiàn)出許多強(qiáng)大而有趣的推理行為。為了進(jìn)一步優(yōu)...
2025-02-14 13:29:37 2739瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?還在為大模型推理速度慢、成本高而煩惱嗎?這篇來自CMU和清華大學(xué)的論文給你帶來了一個(gè)顛覆性的解決方案!他們發(fā)現(xiàn),在推理大型語言模型時(shí),“大力出奇跡”不再是真理!通過深入研究推理過程中的計(jì)算與性能關(guān)系,他們提出了“推理縮放定律”,并革命性地推出了一種名為REBASE的全新算法。REBASE就像一位聰明的向?qū)?,能夠巧妙地利用?jiǎng)勵(lì)信號(hào),指引模型在推理的迷宮中高效探索,避免了傳統(tǒng)方法中耗時(shí)費(fèi)力的盲目搜索。實(shí)驗(yàn)結(jié)果令...
2025-02-06 14:25:07 1878瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是HxShine今天分享一篇來自清華的一篇利用Agent合成數(shù)據(jù)的文章,標(biāo)題為《AgentHospital:ASimulacrumofHospitalwithEvolvableMedicalAgents》。這篇文章介紹了一種名為AgentHospital的仿醫(yī)院模擬系統(tǒng),該系統(tǒng)中患者、護(hù)士和醫(yī)生都是由LLM驅(qū)動(dòng)。文章的核心目標(biāo)是使醫(yī)生Agent能夠在模擬環(huán)境中學(xué)習(xí)如何治療疾病,從而驗(yàn)證社會(huì)模擬過程是否可以提高LLMAgent在特定任務(wù)上的性能。實(shí)驗(yàn)表明,隨著在模擬過程中積累的樣本越來...
2025-01-22 12:26:56 2122瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇阿里的利用Agent思想做工具調(diào)用的文章,標(biāo)題為《SmallLLMsAreWeakToolLearners:AMultiLLMAgent》。其提出的多LLM代理微調(diào)框架,將工具調(diào)用拆解為三個(gè)agent(Planner、Caller、Summarizer),并結(jié)合一個(gè)二階段的微調(diào)策略。對(duì)比單個(gè)LLM表現(xiàn)更為出色,性能也更為穩(wěn)定,并且能夠超過像ChatGPT、GPT4等閉源模型,證明了多agent思路在工具調(diào)用上的有效性。除了工具調(diào)用,或許本文的方法也可以拓展到問答的其他場景,大家...
2025-01-13 11:02:04 2252瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇來自南陽理工的一篇文章《LargeLanguageModelsforAutomatedOpendomainScientificHypothesesDiscovery》。本研究的目標(biāo)是探索如何使用大型語言模型,尤其是GPT4,來自動(dòng)發(fā)現(xiàn)科學(xué)假設(shè)。目前假設(shè)性歸納研究的局限性在于使用的數(shù)據(jù)不是原始網(wǎng)絡(luò)語料庫,而是手動(dòng)選擇后的句子,導(dǎo)致了來源較為封閉;同時(shí),現(xiàn)有的假設(shè)標(biāo)注大多是常識(shí)性知識(shí),任務(wù)挑戰(zhàn)性不足。本文提出了首個(gè)針對(duì)社會(huì)科學(xué)學(xué)術(shù)假設(shè)發(fā)現(xiàn)的自然語言處理(NLP)...
2025-01-03 12:34:30 2153瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
還在為大模型推理速度慢、成本高而煩惱嗎?這篇來自CMU和清華大學(xué)的論文給你帶來了一個(gè)顛覆性的解決方案!他們發(fā)現(xiàn),在推理大型語言模型時(shí),“大力出奇跡”不再是真理!通過深入研究推理過程中的計(jì)算與性能關(guān)系,他們提出了“推理縮放定律”,并革命性地推出了一種名為REBASE的全新算法。REBASE就像一位聰明的向?qū)?,能夠巧妙地利用?jiǎng)勵(lì)信號(hào),指引模型在推理的迷宮中高效探索,避免了傳統(tǒng)方法中耗時(shí)費(fèi)力的盲目搜索。實(shí)驗(yàn)結(jié)果令人...
2024-12-25 11:42:25 2560瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?大家好,我是HxShine。今天分享一篇普林斯頓大學(xué)和GoogleResearch,BrainTeam合作的一篇文章,REACT:SYNERGIZINGREASONINGANDACTINGINLANGUAGEMODELS[1]:在語言模型中協(xié)同Reasoning推理和Action行動(dòng)。其在大語言模型中將Thought推理過程和Action行動(dòng)結(jié)合,一方面可以通過Action從外部獲取額外信息,另一方面可以通過Thought過程,細(xì)化任務(wù),搜索有用信息,過濾無用信息,從而來提高大模型的表現(xiàn)。一、概述Title:REACT:SYNERG...
2024-12-17 12:15:45 3728瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
最近被Sora刷屏,今天結(jié)合OpenAISora的技術(shù)報(bào)告Videogenerationmodelsasworldsimulators來看下Sora具備哪些能力,以及這些能力是怎么來的。功能上除了文生圖,還支持以圖片、視頻作為prompt,極大拓展使用場景。技術(shù)上,利用spacetimepatches,統(tǒng)一了時(shí)空分割語言,為后續(xù)模型訓(xùn)練以及使用場景的拓展打下基礎(chǔ)。數(shù)據(jù)側(cè)在準(zhǔn)備高質(zhì)量的caption數(shù)據(jù)做了專門的優(yōu)化。另外模型基礎(chǔ)架構(gòu)采用DiffusionTransformer,通過Scalling,顯著提...
2024-12-12 11:37:49 2308瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是HxShine。LLM的Reward模型該如何訓(xùn)練呢?今天對(duì)KaggleLLM比賽LLMScienceExam的一些優(yōu)勝方法做一個(gè)總結(jié),這是Kaggle競賽平臺(tái)第一次舉辦LLM相關(guān)比賽,賽題就是探索如何訓(xùn)練一個(gè)sciencebasedRewardModel。優(yōu)勝方案中,如何利用RAG(檢索增強(qiáng))方法提高模型的上限,如何通過傳統(tǒng)方法以及向量檢索方法提高檢索知識(shí)的質(zhì)量,如何使用LoRA,QLoRA等技術(shù)對(duì)LLaMa2等系列進(jìn)行微調(diào),甚至在16GB內(nèi)存的GPU上對(duì)70B大小的LLM進(jìn)行推...
2024-12-04 12:47:42 2960瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是HxShine今天分享一篇ACL2024關(guān)于LLM蒸餾的文章,來自EmoryUniversity,題為“ExplanationGuidedLargeLanguageModelsActiveDistillation”(解釋引導(dǎo)的大型語言模型主動(dòng)蒸餾)。在大型語言模型(LLMs)的應(yīng)用中,由于其內(nèi)存效率低、計(jì)算需求高以及API推理成本高,限制了其廣泛部署。現(xiàn)有的知識(shí)蒸餾方法雖然能將LLMs的能力轉(zhuǎn)移到較小模型上,但無法確保知識(shí)充分轉(zhuǎn)移,可能導(dǎo)致高成本或蒸餾不完全。本文提出了一個(gè)簡單...
2024-11-27 14:44:09 2534瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、概述?Title:ReasoningwithLanguageModelisPlanningwithWorldModel?URL:??https:arxiv.orgabs2305.14992???Code:??https:github.commaitrixorgllmreasoners???Demo:??https:github.commaitrixorgllmreasonersblobmaindemo.ipynb??1Motivation?盡管COT表現(xiàn)不錯(cuò),但是當(dāng)前LLM在生成plan、復(fù)雜數(shù)學(xué)推理、邏輯推理時(shí)仍然表現(xiàn)不夠好。?LLMs缺乏內(nèi)部“世界模型”來預(yù)測世界狀態(tài)(例如環(huán)境狀態(tài)、中間變量值)并...
2024-11-20 14:41:27 5788瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是HxShine。前段時(shí)間Google推出Gemini多模態(tài)大模型,展示了不凡的對(duì)話能力和多模態(tài)能力,其表現(xiàn)究竟如何呢?本文對(duì)Gemini報(bào)告進(jìn)行分析,總的來說Gemini模型在圖像、音頻、視頻和文本理解方面表現(xiàn)出卓越的能力。其包括Ultra、Pro和Nano尺寸,能夠適用于從復(fù)雜推理任務(wù)到設(shè)備內(nèi)存受限用例的各種應(yīng)用。不像OpenAI接入多模態(tài)能力需要利用多個(gè)不同的模型,Google直接在預(yù)訓(xùn)練階段直接接受多模態(tài)的輸入是Gemini的特點(diǎn)之一,...
2024-11-13 16:20:15 3913瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1、大模型也要"私人定制"?最新綜述帶你解鎖AI的個(gè)性化服務(wù)人工智能正在飛速發(fā)展,ChatGPT等大語言模型已經(jīng)成為我們生活中的"萬能助手"。但你是否想過,如果AI助手能夠真正理解你的個(gè)性特征,為你提供量身定制的服務(wù),會(huì)是什么樣的體驗(yàn)?最新發(fā)表的一篇綜述論文,首次系統(tǒng)地梳理了大語言模型個(gè)性化這一前沿研究領(lǐng)域。就像每個(gè)人都有獨(dú)特的性格和偏好一樣,AI助手也需要"因材施教"。研究人員提出了三個(gè)層次的個(gè)性化方案:最精準(zhǔn)...
2024-11-07 15:02:20 3351瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享GoogleResearch的一篇文章,可能OpenAIo1也采用了類似的技術(shù),標(biāo)題是STaR:BootstrappingReasoningWithReasoning。這篇文章提出了一種利用語言模型自我生成推理的技術(shù),稱為“SelfTaughtReasoner(STaR)”。該技術(shù)通過迭代地利用少量的推理樣本和大量沒有推理的數(shù)據(jù),逐步提升語言模型處理復(fù)雜推理任務(wù)的能力。STaR能夠顯著提高模型在多個(gè)數(shù)據(jù)集上的性能,性能能與大30倍模型的微調(diào)性能相當(dāng)。本文提出的方法一方面證明生...
2024-11-07 13:44:54 2789瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
獲得成就
已積累 2.2w 人氣
獲得 0 個(gè)點(diǎn)贊
獲得 1 次收藏