加州大學(xué)洛杉磯分校與MetaAI的研究團(tuán)隊(duì)聯(lián)合發(fā)布了革命性的強(qiáng)化學(xué)習(xí)框架d1【文獻(xiàn)1】。該框架顯著提升了基于擴(kuò)散原理的LLM(dLLM)的推理性能——在某些場景下將響應(yīng)時間從超過30秒縮短至僅需3秒。當(dāng)AI界普遍聚焦于GPT這類逐詞生成結(jié)果的自回歸模型時,dLLM另辟蹊徑,其設(shè)計(jì)靈感源自DALL·E2和StableDiffusion等圖像生成模型。這類模型并非順序構(gòu)建答案,而是通過多輪迭代優(yōu)化被遮蔽的文本版本,在每一階段都能實(shí)現(xiàn)更快速的并行化...
8h前 118瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
筆者近日在朋友圈發(fā)了如下感慨:“現(xiàn)在太多科幻敘事下的公司AI戰(zhàn)略,看了讓人觸目驚心,可以判斷這些做AI戰(zhàn)略的人幾乎不看paper的?,F(xiàn)在的大模型做個六七十分的demo非常擅長,對企業(yè)生產(chǎn)場景卻缺乏精準(zhǔn)控制的手段。再強(qiáng)大的工具也有能力的邊界,研究數(shù)理原理可以推演出這些邊界:?大模型的數(shù)理認(rèn)知框架v2”。問題這并非刻意標(biāo)新立異或危言聳聽:隨著大型生成模型能力的不斷提升及日益廣泛應(yīng)用,人們對其可靠性、安全性及潛在濫...
1天前 270瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
作者:álvaroMartínezSánchez,GonzaloArranz&AdriánLozanoDurán編譯:王慶法麻省理工學(xué)院航空航天系學(xué)者11月1日在Nature上發(fā)表了一篇因果關(guān)系的研究文章【文獻(xiàn)1】,很有啟發(fā)性,特此編譯介紹。摘要因果性是科學(xué)探究的核心,作為理解物理系統(tǒng)中變量相互作用的基本依據(jù),即對原因的操控會導(dǎo)致結(jié)果的變化。當(dāng)前的因果推斷方法面臨著顯著的挑戰(zhàn):包括非線性依賴性、隨機(jī)交互、自因果作用、匯聚效應(yīng)以及外部因素的影響等。本文...
2025-04-18 06:25:40 807瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
《高維回歸中的縮放和重整化》【文獻(xiàn)1】由哈佛大學(xué)物理系、腦科學(xué)中心、工程與應(yīng)用科學(xué)學(xué)院、自然與人工智能研究所多位學(xué)者共同撰寫,將隨機(jī)矩陣?yán)碚摵妥杂筛怕视糜诶斫飧呔S嶺回歸模型的縮放與重整化行為。一、背景知識1.嶺回歸(RidgeRegression)一種線性回歸技術(shù),損失函數(shù)中加入L2正則化項(xiàng),防止過擬合并提高泛化能力,特別適用于自變量高度相關(guān)的情況。2.隨機(jī)特征模型(RandomFeatureModel)一種用于高維數(shù)據(jù)建模和機(jī)器學(xué)...
2025-04-08 00:44:33 878瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
Anthropic連發(fā)兩篇相互關(guān)聯(lián)的大模型內(nèi)部機(jī)制研究報(bào)告【文獻(xiàn)1、文獻(xiàn)2】:構(gòu)建了AI“顯微鏡”,并用它追蹤了大模型思維,這是繼去年?揭秘大模型黑盒之后的重大進(jìn)展。【文獻(xiàn)1】構(gòu)建了替代模型(replacementmodel)作為AI“顯微鏡”通過這個替代模型,亦步亦趨的捕獲針對每一個提示語的歸因圖(attributiongraph)歸因圖用于描述模型在特定輸入提示下生成目標(biāo)詞元輸出時所經(jīng)歷的推理步驟。歸因圖的邊表征節(jié)點(diǎn)間的線性影響關(guān)系,節(jié)...
2025-04-08 00:38:22 907瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
傳聞DeepSeekR2今天上新,東大時區(qū)已過,難道是阿美時間?不必失望,筆者20多年職業(yè)生涯學(xué)到一個深刻道理是:所有的rumor都是真的。DeepSeek不愧是國產(chǎn)之光,V3,R1系列模型以其卓越的性能和開源創(chuàng)新席卷全球。相應(yīng)技術(shù)文檔分享了多項(xiàng)關(guān)鍵技術(shù)突破,為高效、可擴(kuò)展的大模型訓(xùn)練與推理奠定了基礎(chǔ)。R1發(fā)布給行業(yè)帶來的天翻地覆的震動波還在激蕩,R2很快就可能接踵而至了。借此機(jī)會,筆者梳理一下DeepSeekR1&R2超越其他對手的核心秘...
2025-03-25 13:47:47 1950瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
AI正在以前所未有的速度改變我們的世界。從自動化任務(wù)到優(yōu)化決策,AI的廣泛應(yīng)用正在重塑行業(yè)、工作方式甚至我們的思維方式。然而,在這場技術(shù)變革中,我們面臨著一個深刻的悖論:AI在提升效率的同時,是否也在削弱我們的長期韌性和獨(dú)立思考能力?如何在AI時代脫穎而出,成為真正的思想領(lǐng)袖,是每一個追求卓越的人必須回答的問題。效率與韌性的博弈AI帶來效率提升背后隱藏著代價。自動化不僅讓我們更高效,還讓我們更依賴機(jī)器。...
2025-03-13 07:13:17 1289瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
從事大模型應(yīng)用的讀者都可能受到知識圖譜(KG)不足的困擾,知識圖譜的構(gòu)建與運(yùn)營常常是耗時費(fèi)力的手工過程。斯坦福最新工作KGGen【文獻(xiàn)1】,利用大語言模型(LLM)從非結(jié)構(gòu)化文本中自動生成高質(zhì)量知識圖譜,等于從LLM提取出語義。簡介知識圖譜是信息檢索等應(yīng)用中基本的數(shù)據(jù)結(jié)構(gòu),通過主謂賓三元組表示實(shí)體之間的關(guān)系。然而,許多現(xiàn)有的KG存在不完整性,缺乏實(shí)體之間的眾多關(guān)系,這對下游任務(wù)如KG嵌入和基于圖的推理造成了挑戰(zhàn)...
2025-02-28 13:12:25 2302瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片趨勢判斷2月5日筆者對大模型行業(yè)發(fā)展的判斷:“總結(jié)一句話:大模型全棧都應(yīng)圍繞DeepSeek做生態(tài)”。之后見證芯片企業(yè)一擁而上,設(shè)備商爭先恐后,大模型廠家被動跟隨,應(yīng)用集體嗨翻天。芯片>編譯器>設(shè)備>大模型>Agent智能體,過去兩周國內(nèi)全面擁抱DeepSeek形勢如海嘯一般。2月16日微信接入DeepSeek則是標(biāo)志性事件,靈珠魔丸合體,官媒助力,同仇敵愾的感覺。下一步,DeepSeek需要規(guī)劃好版本發(fā)行的節(jié)奏,創(chuàng)新參數(shù)融合機(jī)制,減...
2025-02-20 11:33:14 1506瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
本文將散落在近期多篇文章中筆者圍繞激發(fā)推理ScalingLaw的思考做了一下整理。方向MIT對大模型數(shù)理原理的強(qiáng)有力證明中總結(jié):基于宏大的人類知識提取出來豐富范疇,形成眾多領(lǐng)域的本體知識結(jié)構(gòu),這是大模型通過預(yù)訓(xùn)練已經(jīng)構(gòu)建的內(nèi)部世界模型;提高推理采樣的機(jī)制,通過訓(xùn)練達(dá)成學(xué)習(xí)推理的scalinglaw,是大模型下一步努力提升的方向。相比傳統(tǒng)方法,新的大模型機(jī)理,具備更高維度的新穎性、對能力和技術(shù)細(xì)節(jié)的探索,可以通過揭示隱...
2025-02-13 12:20:37 1910瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
這個春節(jié)是DeepSeek的狂歡節(jié),從R1發(fā)布到席卷全球僅不到兩周,霸占140多個國家AppStore下載排行榜榜首。今日節(jié)后第一天開工,幾位朋友不約而同咨詢我大模型未來走向,這里簡單分享一下我的看法,拋磚引玉。總結(jié)一句話:大模型全棧都應(yīng)圍繞DeepSeek做生態(tài)重要的事情通常得說三遍,但這件事只需說一遍,卻無比重要,攸關(guān)資金、人力、時間等資源投入和業(yè)務(wù)創(chuàng)新與價值產(chǎn)出。大模型全棧這是筆者整理的大模型全棧:芯片>編譯器>設(shè)備>...
2025-02-05 17:14:47 1547瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
局部核重整化學(xué)習(xí)機(jī)制自然通訊2025年1月10日刊發(fā)一篇題為“局部核重整化作為超參數(shù)化卷積神經(jīng)網(wǎng)絡(luò)中特征學(xué)習(xí)的機(jī)制”的文章【文獻(xiàn)1】,學(xué)者們稱“確定了一種完全不同的內(nèi)核重整化形式:全連接架構(gòu)的內(nèi)核只是由單個標(biāo)量參數(shù)全局重整化,而卷積核則經(jīng)歷局部重整化,這意味著網(wǎng)絡(luò)可以選擇局部分量,這些分量將以數(shù)據(jù)依賴的方式為最終預(yù)測做出貢獻(xiàn)”。這一發(fā)現(xiàn)強(qiáng)調(diào)了一種簡單的特征學(xué)習(xí)機(jī)制,CNN的重整化內(nèi)核表達(dá)式中展示的核重整化...
2025-01-21 13:42:33 1496瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
最優(yōu)傳輸距離數(shù)值求解拉格朗日成本下的神經(jīng)最優(yōu)傳輸一文中,筆者整理了三個要點(diǎn):1.最優(yōu)傳輸距離(也稱推土距離)將統(tǒng)一深度學(xué)習(xí)概率分布距離計(jì)算2.大模型Transformer等價的重整化群流都將會沿著最優(yōu)傳輸?shù)姆较蜻M(jìn)行3.拉格朗日成本處理神經(jīng)網(wǎng)絡(luò)最優(yōu)傳輸能更有效地建模復(fù)雜的系統(tǒng)動力學(xué)文章提到最優(yōu)傳輸距離目前受到數(shù)值計(jì)算效率的制約,影響了其廣泛應(yīng)用。這也是筆者一直關(guān)注的方向之一。文中介紹的紐約大學(xué)和Meta的AI學(xué)者創(chuàng)新的...
2025-01-10 12:50:40 1526瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、受羅杰·彭羅斯啟發(fā)的猜想1989年,在他的重要著作《皇帝的新思維》中,羅杰·彭羅斯提出了一個引人注目的假設(shè)[1]。他認(rèn)為量子過程對于形成意識的物理基礎(chǔ)至關(guān)重要。這個觀點(diǎn)具有吸引力,因?yàn)榱孔恿W(xué)的方程告訴我們,在任何時刻,一個物體——無論是我,還是整個世界——都處于多種狀態(tài)的疊加中。然而,在任何給定的時刻,我們只體驗(yàn)其中的一種。為了說明這一點(diǎn),想象一個研究員走到谷歌量子AI實(shí)驗(yàn)室的一臺量子計(jì)算機(jī)前,觀...
2025-01-02 12:13:19 2194瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?哥倫比亞大學(xué)和范斯坦醫(yī)學(xué)研究所學(xué)者最近研究了LLM與腦神經(jīng)反應(yīng)的相似性。目的與發(fā)現(xiàn)研究的目的是確定最新的LLM是否與人腦表現(xiàn)出相似之處,有可能提高對LLM和大腦的理解,尤其在理解和生成語言方面。研究結(jié)果發(fā)表在《自然機(jī)器智能》上【文獻(xiàn)1】,表明隨著LLM越來越先進(jìn),不僅性能更高,也變得更像大腦。研究方法研究人員通過植入神經(jīng)外科患者大腦的電極記錄了他們在聽語音時的腦神經(jīng)反應(yīng)。并將同一語音的文本提供給LLM并提取...
2024-12-23 09:30:14 1892瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
引言近期的發(fā)展標(biāo)志著人工智能領(lǐng)域的一個激動人心的時期。2024年諾貝爾物理學(xué)獎授予了約翰·霍普菲爾德(JohnHopfield)和杰弗里·辛頓(GeoffreyHinton),以表彰他們在人工智能領(lǐng)域的奠基性工作;而化學(xué)獎則頒給了大衛(wèi)·貝克(DavidBaker)、德米斯·哈薩比斯(DemisHassabis)和約翰·瓊珀(JohnJumper),以表彰他們利用人工智能解決蛋白質(zhì)折疊問題的成就——這是科學(xué)界長達(dá)50年的重大挑戰(zhàn)。隨著人工智能在物理學(xué)和化學(xué)中的...
2024-12-03 14:21:26 2376瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?一、量子計(jì)算薛定諤的愛情與狄拉克的996一文中筆者帶大家領(lǐng)略了量子力學(xué)的魅力,并簡單探討了量子計(jì)算(QC:QuantumComputing)。QC處于技術(shù)創(chuàng)新的最前沿,業(yè)界期待其解決傳統(tǒng)計(jì)算平臺無法有效解決的復(fù)雜問題,特別是突破當(dāng)下AI大模型遇到的算力瓶頸。另一方面,新的大模型機(jī)理具備更高維度的新穎性,可以通過揭示隱藏的聯(lián)系建立更廣泛有用的創(chuàng)新框架,成為科學(xué)和哲學(xué)探索的有力工具,包括QC。二、AI賦能QC牛津大學(xué)、NVIDIA、...
2024-11-25 15:56:58 2207瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片概括為:1、重整化從海量語料中提取出范疇,2、持續(xù)重整化驅(qū)動范疇解構(gòu)重組結(jié)晶,3、生成過程于范疇中采樣做變分推理。進(jìn)一步,從這個數(shù)理原理出發(fā),可以推演出大模型未來可能的發(fā)展脈絡(luò),潛在的能力,以及可能的脆弱點(diǎn),最近不少文獻(xiàn)分別印證了這幾點(diǎn)。一、訓(xùn)練語料的顆粒度、覆蓋面受限,無法囊括人類現(xiàn)有的所有知識,甚至都無法包含某個單一領(lǐng)域的完備的知識,重整化出來的內(nèi)部世界模型的結(jié)晶可能是局部的,相對于完備的...
2024-11-18 16:07:32 2048瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
Iwillsendyou11picturesandpleaseexplainwhatisinthepictureandguessitsusage,giveyouranswerinEnglishandthentranslateintoChinese我會發(fā)給你11張圖片,請解釋圖片中有什么并猜測其用途,用英語給出你的答案,然后翻譯成中文??Sure,goaheadanduploadthepicturesonebyone.I'lldescribeeachpictureandguessitsusage,thenprovidethetranslationinChineseforyou.當(dāng)然可以,一張一張上傳照片。我將描述每個圖片并猜測其用法,然后為...
2024-10-23 12:19:53 1872瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
LLMAgent大模型智能體熱度空前,但智能體是什么、為什么、怎么辦,行業(yè)還沒有統(tǒng)一認(rèn)知,典型的小學(xué)語文課本里“小馬過河”的現(xiàn)實(shí)版。是什么一、OpenAI工程師LilianWeng的定義2023.6.23規(guī)劃子目標(biāo)和分解:將大型任務(wù)分解為更小的、可管理的子目標(biāo)。反思和改進(jìn):對過去的行動進(jìn)行自我批評和自我反省,從錯誤中學(xué)習(xí)。記憶短期記憶:上下文學(xué)習(xí)都是利用模型的短期記憶來學(xué)習(xí)。長期記憶:長期保留和回憶信息的能力。工具使用調(diào)用外部...
2024-10-16 16:15:50 2496瀏覽 0點(diǎn)贊 0回復(fù) 0收藏