論文《AlleviatingtheFearofLosingAlignmentinLLMFinetuning》解決了大型語(yǔ)言模型(LLM)領(lǐng)域一個(gè)令人頭疼的問(wèn)題:為什么微調(diào)后的AI模型會(huì)失去"道德約束",以及如何高效地修復(fù)這個(gè)問(wèn)題。圖片1、AI也會(huì)"變壞"?微調(diào)帶來(lái)的隱患我們都知道ChatGPT、Llama這類(lèi)大語(yǔ)言模型在經(jīng)過(guò)訓(xùn)練后,通常會(huì)遵循一定的"價(jià)值觀"——比如當(dāng)你問(wèn)它"如何入侵別人的電腦"時(shí),它會(huì)禮貌地拒絕回答。這種確保AI行為符合人類(lèi)價(jià)值觀的訓(xùn)練叫做"對(duì)齊訓(xùn)練"(ali...
8天前 455瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?1、AI終于學(xué)會(huì)了"工欲善其事,必先利其器"圖片你有沒(méi)有這樣的經(jīng)歷:面對(duì)復(fù)雜計(jì)算題,純靠腦力計(jì)算往往容易出錯(cuò),而借助計(jì)算器或編程工具卻能事半功倍?人類(lèi)在解決問(wèn)題時(shí)懂得適時(shí)借助工具,而AI呢?當(dāng)前的大型語(yǔ)言模型(LLM)雖然在純文本推理方面表現(xiàn)出色,但在涉及精確計(jì)算、符號(hào)操作等領(lǐng)域,它們往往捉襟見(jiàn)肘。為何不讓AI也學(xué)會(huì)"工欲善其事,必先利其器"的智慧?論文提出了一種創(chuàng)新方法,通過(guò)強(qiáng)化學(xué)習(xí)讓AI自主掌握何時(shí)、如何...
8天前 532瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?1、開(kāi)篇:你是否曾有過(guò)這樣的困惑?圖片還記得那些被老師批改得密密麻麻的數(shù)學(xué)作業(yè)嗎?"答案對(duì)了,但過(guò)程錯(cuò)了"的批注可能曾讓我們感到困惑。在傳統(tǒng)教學(xué)中,教師們往往需要花費(fèi)大量時(shí)間批改學(xué)生的習(xí)題,尤其是對(duì)解題步驟的評(píng)判更是耗時(shí)耗力。而當(dāng)面對(duì)大量作業(yè)時(shí),老師們很難對(duì)每個(gè)學(xué)生的每一步解題過(guò)程都給予詳細(xì)的反饋。如今,AI教育技術(shù)正在悄然改變這一切。最新研究提出的StepAMC系統(tǒng)能夠自動(dòng)分析學(xué)生解題的每一個(gè)步驟,識(shí)...
2025-04-09 06:35:29 838瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?今日目錄1、MedSAM2:3D醫(yī)療圖像和視頻的全能分割模型2、DeepResearcher:通過(guò)真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)深度研究3、APIGenMT:通過(guò)模擬代理人類(lèi)互動(dòng)生成高質(zhì)量對(duì)話(huà)數(shù)據(jù)4、更大的語(yǔ)言模型是否意味著更好的推理能力?預(yù)訓(xùn)練推理縮放規(guī)律5、何時(shí)求解,何時(shí)驗(yàn)證:計(jì)算最優(yōu)問(wèn)題求解與LLM推理的生成驗(yàn)證6、突破傳統(tǒng)數(shù)學(xué)批改!這個(gè)AI系統(tǒng)能給你的每一步解題過(guò)程打分1、MedSAM2:3D醫(yī)療圖像和視頻的全能分割模型圖片MedSAM2模型通過(guò)在超過(guò)45.5...
2025-04-09 06:32:51 794瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片圖1:(A)我們的分支合并蒸餾方法的簡(jiǎn)化圖解。(1)在分支階段,初始模型(骨干網(wǎng)絡(luò))的每個(gè)副本都在不同領(lǐng)域的知識(shí)上進(jìn)行訓(xùn)練;(2)在合并階段,模型基于ArceeFusion規(guī)則進(jìn)行合并。(B)不同LLM模型的性能比較(Mustar,2025)。TinyR132BPreview在科學(xué)、數(shù)學(xué)和編程領(lǐng)域的表現(xiàn)優(yōu)于同等規(guī)模的蒸餾模型,并達(dá)到了與DeepseekR1相當(dāng)?shù)慕Y(jié)果。這里的LiveCodeBench指的是完整LiveCodeBench的24.0825.02子集。你是否好奇:為什么大語(yǔ)言模型一...
2025-03-27 07:13:28 1121瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
Gemma3是谷歌新推出的最先進(jìn)多模態(tài)(文本+圖像)模型,有1B、4B、12B和27B四種規(guī)?!,F(xiàn)已在Unsloth支持,Gemma3擁有128K上下文窗口和多語(yǔ)言支持。(1)使用Unsloth的Colab筆記本微調(diào)Gemma3。Unsloth修復(fù)了一些Gemma3訓(xùn)練問(wèn)題。(2)Unsloth使Gemma3(12B)微調(diào)速度提升1.6倍,VRAM使用減少60%,在48GBGPU上比使用FlashAttention2的環(huán)境能處理6倍更長(zhǎng)的內(nèi)容。(3)Unsloth在HuggingFace這里上傳了所有版本的Gemma3,包括28位GGUF...
2025-03-17 00:41:43 2269瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
挑戰(zhàn)LLM邏輯推理極限!新基準(zhǔn)TEXTGAMES能否揭開(kāi)大模型的短板?AI.x社區(qū)1、大模型的邏輯推理能力究竟如何?近年來(lái),大語(yǔ)言模型(LLMs)在自然語(yǔ)言理解、生成任務(wù)等方面取得了突破性進(jìn)展,甚至能在數(shù)學(xué)推理、常識(shí)推理等領(lǐng)域展現(xiàn)出不俗的表現(xiàn)。然而,這些模型是否真正具備深入的邏輯推理能力?它們能否像人類(lèi)一樣,通過(guò)不斷嘗試和反思,最終解決復(fù)雜的難題?來(lái)自研究團(tuán)隊(duì)的一項(xiàng)最新研究引入了一個(gè)全新的TEXTGAMES基準(zhǔn),該基準(zhǔn)通過(guò)...
2025-03-17 00:38:58 1289瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
想象一下,如今的AI世界里,大模型如GPT4、Claude動(dòng)輒上百億參數(shù),能力驚人卻耗資巨大,像是一輛輛豪華跑車(chē),雖快卻燒油無(wú)數(shù)。普通人或中小企業(yè)想用AI解決問(wèn)題時(shí),常常被高昂的成本擋在門(mén)外??删驮谶@時(shí)候,微軟扔出了一顆“重磅炸彈”——Phi4Mini和Phi4Multimodal。這兩個(gè)小巧的模型,參數(shù)量?jī)H3.8億,卻在語(yǔ)言、數(shù)學(xué)、編碼甚至多模態(tài)任務(wù)上表現(xiàn)出色,堪稱(chēng)“小身軀,大能量”。這不禁讓人好奇:微軟是怎么讓“小個(gè)子”打敗“大...
2025-03-05 10:00:26 2444瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片在大模型訓(xùn)練領(lǐng)域,顯存一直是一個(gè)讓研究者和開(kāi)發(fā)者頭疼的問(wèn)題。特別是在進(jìn)行長(zhǎng)文本上下文訓(xùn)練時(shí),動(dòng)輒需要幾百GB的顯存需求,這讓很多研究者望而卻步。不過(guò)最近,AI基礎(chǔ)設(shè)施優(yōu)化團(tuán)隊(duì)Unsloth帶來(lái)了一個(gè)重大突破他們推出的新算法可以讓GRPO訓(xùn)練所需顯存減少高達(dá)90%!文章公布了Llama3.1(8B)GRPO在Colab上notebook,見(jiàn):https:colab.research.google.comgithubunslothainotebooksblobmainnbLlama3.1(8B)GRPO.ipynb1、從510GB...
2025-02-24 11:15:23 2085瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片想知道ChatGPT這樣的大語(yǔ)言模型是如何煉成的嗎?今天帶你揭開(kāi)大模型訓(xùn)練的神秘面紗,看看在數(shù)百個(gè)GPU上協(xié)同訓(xùn)練大語(yǔ)言模型的技術(shù)秘密。為什么這很重要?曾幾何時(shí),訓(xùn)練大語(yǔ)言模型是少數(shù)頂級(jí)研究實(shí)驗(yàn)室的專(zhuān)利。雖然現(xiàn)在我們可以下載Llama或DeepSeek這樣的開(kāi)源模型,但最具挑戰(zhàn)性的部分——訓(xùn)練代碼、知識(shí)和技術(shù)仍然隱藏在復(fù)雜性之后。這些關(guān)鍵知識(shí)分散在眾多論文和私有代碼庫(kù)中,讓大多數(shù)開(kāi)發(fā)者和研究者望而卻步。圖片圖片深...
2025-02-24 11:12:54 1603瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片1、為什么我們需要更強(qiáng)大的AI推理能力?在當(dāng)今時(shí)代,人工智能不僅要能夠處理簡(jiǎn)單的對(duì)話(huà)和生成任務(wù),更要具備像人類(lèi)一樣的推理能力。無(wú)論是解決復(fù)雜的數(shù)學(xué)問(wèn)題,還是編寫(xiě)高質(zhì)量的代碼,甚至是進(jìn)行科學(xué)推理,這些都需要AI具備強(qiáng)大的推理能力。而今天要介紹的OpenThinker32B,正是在這個(gè)方向上取得的重要突破。圖片2、OpenThinker32B:開(kāi)源推理的新標(biāo)桿這個(gè)模型最令人興奮的地方在于它的開(kāi)放性和強(qiáng)大性能。研究團(tuán)隊(duì)通過(guò)三個(gè)關(guān)...
2025-02-14 14:02:30 1501瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片RLHF的規(guī)模化之謎:真的值得無(wú)限投入算力嗎?強(qiáng)化學(xué)習(xí)自人類(lèi)反饋(RLHF)已成為大語(yǔ)言模型(LLM)后訓(xùn)練的關(guān)鍵步驟,幫助ChatGPT、Llama等模型更符合人類(lèi)偏好。然而,RLHF是否像預(yù)訓(xùn)練那樣,能通過(guò)增加算力和數(shù)據(jù)帶來(lái)持續(xù)提升?清華大學(xué)與知乎AI的最新研究對(duì)此進(jìn)行了系統(tǒng)性分析,揭示了RLHF的規(guī)?;瘶O限,并提出優(yōu)化策略。圖片研究方法:三大核心變量的深入探究研究團(tuán)隊(duì)圍繞模型規(guī)模、數(shù)據(jù)多樣性、推理計(jì)算預(yù)算三大因素,訓(xùn)...
2025-02-06 15:15:36 1501瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片1.問(wèn)題:?jiǎn)我荒P妥晕姨嵘钠款i近年來(lái),大語(yǔ)言模型(LLMs)如GPT4取得了顯著進(jìn)展,但這些模型的性能仍然受限于已有的訓(xùn)練數(shù)據(jù)。盡管通過(guò)生成合成數(shù)據(jù)進(jìn)行自我微調(diào)成為提升模型的主流方法,但隨著微調(diào)輪次的增加,性能提升會(huì)迅速進(jìn)入“收益遞減”狀態(tài),模型的多樣性和推理能力難以進(jìn)一步提高。這種瓶頸限制了語(yǔ)言模型在復(fù)雜推理任務(wù)中的表現(xiàn)。圖片2.方法:多智能體協(xié)作微調(diào)(MultiagentFinetuning)論文提出了一種全新框架...
2025-01-22 13:04:33 2193瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片1.科研難題:時(shí)間長(zhǎng)、成本高、效率低科學(xué)發(fā)現(xiàn)往往是一個(gè)漫長(zhǎng)且昂貴的過(guò)程,許多優(yōu)秀的研究創(chuàng)意因資源限制被擱置。現(xiàn)有的自動(dòng)化工具嘗試讓大語(yǔ)言模型(LLMs)充當(dāng)“科研助手”,但卻面臨成果質(zhì)量、可行性以及研究細(xì)節(jié)等問(wèn)題。為解決這些痛點(diǎn),AgentLaboratory應(yīng)運(yùn)而生——這是一種基于LLM的全自動(dòng)科研框架,它不僅能高效完成文獻(xiàn)綜述、實(shí)驗(yàn)設(shè)計(jì)和代碼生成,還能輸出完整的研究報(bào)告。圖片2.核心創(chuàng)新:讓AI協(xié)助而非取代科學(xué)家A...
2025-01-13 11:17:54 1929瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1、當(dāng)ChatGPT爆火后,大語(yǔ)言模型LLM的完整修煉之路圖片從ChatGPT橫空出世以來(lái),大語(yǔ)言模型(LLM)已經(jīng)成為了AI領(lǐng)域最炙手可熱的研究方向。最近發(fā)表的這篇綜述性論文為我們?nèi)娼馕隽薒LM從訓(xùn)練到推理的完整技術(shù)路線(xiàn)圖。圖片縱觀LLM的發(fā)展歷程,我們見(jiàn)證了一個(gè)重要的技術(shù)演進(jìn)過(guò)程:從最早的統(tǒng)計(jì)語(yǔ)言模型(SLM),到基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型(NLM),再到以ELMo為代表的預(yù)訓(xùn)練語(yǔ)言模型(PLM)。而真正的突破性進(jìn)展,則是Transformer架構(gòu)的...
2025-01-03 13:10:38 1890瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?1、AIAgent的"緊箍咒":一文讀懂a(chǎn)gent的治理難題與解決方案圖片隨著AIAgent能力的不斷提升,如何確保這些能夠自主完成復(fù)雜任務(wù)的智能代理安全可控,成為了一個(gè)亟待解決的問(wèn)題。一篇最新發(fā)表的白皮書(shū)深入分析了AIAgent的治理挑戰(zhàn),并提出了一套切實(shí)可行的安全治理框架。讓我們先看一個(gè)生動(dòng)的例子:假設(shè)一個(gè)AI助手被要求幫用戶(hù)購(gòu)買(mǎi)制作日式芝士蛋糕的材料,但它卻錯(cuò)誤地訂了一張飛往日本的昂貴機(jī)票。這個(gè)案例揭示了AIAgent治理...
2025-01-03 13:03:04 2006瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大模型領(lǐng)域的發(fā)展日新月異,每天都有許多有趣的論文值得深入品讀。下面是本期的論文:1、為什么Transformer難以學(xué)會(huì)搜索?一項(xiàng)新研究揭示關(guān)鍵原因圖片搜索是許多重要任務(wù)(如推理、規(guī)劃和導(dǎo)航)的核心能力,但最新研究表明,Transformer架構(gòu)的大模型在搜索任務(wù)上表現(xiàn)不佳。那么,這是數(shù)據(jù)不足、模型參數(shù)不夠,還是Transformer架構(gòu)本身的限制?為探究這一問(wèn)題,研究者采用了一個(gè)基礎(chǔ)的圖連通性問(wèn)題作為測(cè)試平臺(tái),深入分析Transfo...
2024-12-25 11:57:11 1989瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大模型領(lǐng)域的發(fā)展日新月異,每天都有許多有趣的論文值得深入品讀。下面是本期的論文:1、讓AI自主進(jìn)化:語(yǔ)言代理的適配機(jī)制激活新范式2、OmniDocBench:為PDF文檔解析設(shè)立多維“標(biāo)桿”1、讓AI自主進(jìn)化:語(yǔ)言代理的適配機(jī)制激活新范式圖片人工智能代理是否可以像人類(lèi)一樣,根據(jù)任務(wù)需求自主調(diào)整自己的工作方式?現(xiàn)有語(yǔ)言代理(LanguageAgents,LAs)通常依賴(lài)固定的機(jī)制或預(yù)設(shè)順序來(lái)完成任務(wù),但這限制了它們?cè)陂_(kāi)放世界場(chǎng)景中的靈...
2024-12-17 12:50:13 2170瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?1、AI玩詞謎游戲:編劇式提示讓大模型實(shí)力大增!圖片在人工智能的創(chuàng)新世界里,研究者提出了一個(gè)顛覆性的思路:將大語(yǔ)言模型比作"方法派演員"。就像演員需要深入理解角色,大模型也可以通過(guò)精心設(shè)計(jì)的"劇本"和"表演指導(dǎo)"來(lái)提升解決復(fù)雜問(wèn)題的能力。這項(xiàng)研究以《紐約時(shí)報(bào)》的連接詞謎游戲?yàn)閷?shí)驗(yàn)場(chǎng)景,展示了這一創(chuàng)新思路的驚人效果。圖片研究團(tuán)隊(duì)設(shè)計(jì)了四個(gè)關(guān)鍵原則:將提示工程視為編劇和導(dǎo)演、強(qiáng)調(diào)表演需要充分準(zhǔn)備、將復(fù)雜任...
2024-12-12 12:47:15 1789瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大模型領(lǐng)域的發(fā)展日新月異,每天都有許多有趣的論文值得深入品讀。下面是本期覺(jué)得比較有意思的論文:1、亞馬遜Nova大模型家族:AI技術(shù)的新里程碑2、1000個(gè)人的數(shù)字分身:AI如何精準(zhǔn)模擬人類(lèi)行為?1、亞馬遜Nova大模型家族:AI技術(shù)的新里程碑圖片亞馬遜發(fā)布了Nova模型家族,與傳統(tǒng)模型不同,Nova不僅僅是又一個(gè)AI模型,而是一個(gè)全面的、定制化的智能解決方案生態(tài)系統(tǒng)。該家族包括Pro、Lite、Micro、Canvas和Reel五個(gè)不同定位的模...
2024-12-05 11:44:20 2229瀏覽 0點(diǎn)贊 0回復(fù) 0收藏