一、背景此前筆者對(duì)AIAgent研究的涉獵比較少,也基本沒有系統(tǒng)介紹過與Agent相關(guān)的內(nèi)容。然而,最近由Anthropic提出的MCP(ModelContextProtocol[1],模型上下文協(xié)議)在社區(qū)中引發(fā)廣泛關(guān)注,筆者也趁此機(jī)會(huì)“蹭蹭熱度”,了解下MCP到底是什么,了解一下MCP的基本概念和工作機(jī)制。在最初接觸MCP時(shí),也曾對(duì)其一些設(shè)計(jì)感到困惑。于是帶著這些疑問進(jìn)行了進(jìn)一步的調(diào)研,逐漸對(duì)MCP的組成及運(yùn)作方式有了初步的認(rèn)識(shí),比如:MCP中的Resou...
8天前 1245瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景在大規(guī)模分布式訓(xùn)練場(chǎng)景中,計(jì)算和通信的重疊(Overlap)一直是一個(gè)關(guān)鍵的研究熱點(diǎn)。隨著硬件性能的提升,計(jì)算能力和通信帶寬之間的差距日益顯著。如下圖所示,硬件算力每2年大約擴(kuò)大3x,而通信帶寬每2年只提升1.4x,這種差距帶來的影響在大規(guī)模訓(xùn)練任務(wù)中愈加明顯。例如,在使用H100和A100集群進(jìn)行LLM訓(xùn)練時(shí),H100的通信開銷占比通常會(huì)高于A100。這種情況下,通信可能成為了系統(tǒng)性能的瓶頸,因此,如何在計(jì)算和通信之...
2025-04-09 06:48:28 1223瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景筆者之前的文章(萬字綜述LLM訓(xùn)練中的Overlap優(yōu)化:字節(jié)Flux等7種方案)中詳細(xì)介紹過各種計(jì)算與通信Overlap的方案,這里進(jìn)一步介紹字節(jié)最近發(fā)表的TileLink,其中提到的大部分工作已經(jīng)包含在我們之前的綜述中,建議優(yōu)先閱讀,比如CoCoNet、Centauri、Flux等。對(duì)應(yīng)的論文:[2503.20313]TileLink:GeneratingEfficientComputeCommunicationOverlappingKernelsusingTileCentricPrimitives[1]二、摘要大規(guī)模深度學(xué)習(xí)模型通常...
2025-04-09 06:45:50 1410瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景最近幾天Google發(fā)布了最新的Gemma3系列開源模型,迅速成為業(yè)界熱議的焦點(diǎn),其中,Gemma327BIT模型尤為引人注目。如下圖所示為Google廣泛宣傳的Gemma327BIT模型在ChatbotArenaLeaderboard[1]上的表現(xiàn),以27B的參數(shù)量,不僅超越了更大參數(shù)量的DeepSeekV3(實(shí)際激活參數(shù)量差不多),并且接近頂尖的DeepSeekR1。事實(shí)上性能真的這么“炸裂”嗎?還是面向ChatbotArena的優(yōu)化?值得注意的是,ChatbotArena的排名基于用戶盲測(cè)投...
2025-03-27 07:18:03 1369瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景DeepSeekV3R1模型的發(fā)布,以及AIInfra相關(guān)代碼庫的開源,對(duì)大模型從業(yè)者產(chǎn)生了不容忽視的影響。從短期來看,這些工作確實(shí)推動(dòng)了業(yè)界對(duì)AIInfra建設(shè)的關(guān)注,至少促使人們開始重視算法與Infra的協(xié)同設(shè)計(jì)。這一變化也看似提升了Infra團(tuán)隊(duì)在整個(gè)大模型生成鏈路的話語權(quán),但也為相關(guān)從業(yè)者帶來了更大的學(xué)習(xí)壓力與追趕挑戰(zhàn),甚至看到一些公司或團(tuán)隊(duì)因而重新審視了原有的發(fā)展規(guī)劃。近期,我依然保持閱讀了一些相關(guān)文章,但由于...
2025-03-17 00:52:51 1367瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、引言DeepSeek從2024年01月到2025年01月發(fā)布了一系列模型,其中最主要的就是語言系列模型,這個(gè)文檔中我們會(huì)對(duì)語言模型涉及的關(guān)鍵技術(shù)進(jìn)行具體介紹:語言模型:DeepSeekV1、MoE、V2、V3。多模態(tài)模型:DeepSeekVL1、VL2、Janus。數(shù)學(xué)、代碼、Reasoning模型:DeepSeekMath、Coder、CoderV2、R1。如下圖所示,圖中我們匯集了DeepSeekV1、MoE、V2、V3、R1系列模型中的關(guān)鍵技術(shù)點(diǎn);此外,也補(bǔ)充了DeepSeekA100和H800GPU集群的關(guān)鍵...
2025-03-05 10:11:27 3875瀏覽 1點(diǎn)贊 0回復(fù) 1收藏
一、背景最近幾天DeepSeek的NSA以及Moonshot的MoBA受到廣泛關(guān)注,我也在第一時(shí)間看了相關(guān)論文。由于最近DeepSeek的火爆,各大平臺(tái)上也出現(xiàn)了非常多對(duì)這兩篇文章的介紹,這里不再贅述其襲擊,只是簡(jiǎn)單陳述一下我的一些思考和看法。在看這兩篇論文的時(shí)候,我們可以發(fā)現(xiàn)其很多觀點(diǎn)和手段都似曾相識(shí),其他在之前的Quest、SeerAttention(之前也分享過)等論文都有相關(guān)介紹。不過,其在工業(yè)落地方面提供了更多的可能性,比如Moonshot...
2025-02-24 11:18:18 1582瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景上一篇文章中我們具體介紹了DeepSeekR1系列模型的構(gòu)建流程和關(guān)鍵技術(shù)點(diǎn),考慮到最近出現(xiàn)了許多相關(guān)工作,也分別得出了各種不同的結(jié)論,與此同時(shí)還出現(xiàn)了大量的誤解。本文中,我們整理了DeepSeekR1等6篇Reasoning相關(guān)文章的關(guān)鍵結(jié)論,以便相互驗(yàn)證和對(duì)比。如下圖所示為這些文章中的一些關(guān)鍵指標(biāo):相關(guān)工作可以參考我們之前的文章:???DeepSeekR1論文解讀&關(guān)鍵技術(shù)點(diǎn)梳理??????DeepSeekV3詳細(xì)解讀:模型&Infra建...
2025-02-14 14:07:41 1981瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景本文中我們繼續(xù)介紹小紅書用于多模態(tài)場(chǎng)景筆記推薦的NoteLLM2。對(duì)應(yīng)的論文為:[2405.16789]NoteLLM2:MultimodalLargeRepresentationModelsforRecommendation[1]二、摘要LLM在文本理解方面展現(xiàn)了卓越能力,現(xiàn)有研究也已探討了其在文本Embedding任務(wù)中的應(yīng)用,然而,利用LLM輔助多模態(tài)表征任務(wù)的研究尚不多見。本文作者旨在探索LLM在多模態(tài)ItemtoItem(I2I)推薦中增強(qiáng)多模態(tài)表征的潛力。如下圖Figure1所示,一種可行的方...
2025-02-06 15:23:53 1773瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景最近“TikTok難民”涌入小紅書,“小紅書霸榜蘋果AppStore”等話題受到廣泛關(guān)注,字節(jié)跳動(dòng)的Lemon8也不相上下。當(dāng)然,作為一個(gè)技術(shù)公眾號(hào),我們這里并不是要討論這一現(xiàn)象,而是要介紹小紅書的NoteLLM,其主要用于小紅書中的筆記推薦和標(biāo)簽生成。對(duì)應(yīng)的論文為:[2403.01744]NoteLLM:ARetrievableLargeLanguageModelforNoteRecommendation[1]有關(guān)LLM在搜廣推場(chǎng)景的應(yīng)用落地也可以參考我們之前的文章:???字節(jié)HLLM:大...
2025-01-22 13:17:01 4382瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景我們?cè)谥暗奈恼轮性敿?xì)分析過GQA相比MHA的推理優(yōu)勢(shì)(省顯存、計(jì)算強(qiáng)度高),不過GQA有可能導(dǎo)致精度的損失,因此早期的一些不太大的LLM會(huì)使用MHA。針對(duì)這個(gè)問題有兩種優(yōu)化思路:將MHA轉(zhuǎn)換為GQA,長(zhǎng)短序列都適用。在長(zhǎng)序列場(chǎng)景使用Token稀疏化方案或者結(jié)合投機(jī)采樣策略。?本文中我們介紹一個(gè)將MHA轉(zhuǎn)換為GQA的工作,不過論文的實(shí)驗(yàn)還偏少,效果也不是非常好;此外,最新的模型基本都在預(yù)訓(xùn)練階段默認(rèn)采用GQA(LLaMA38B、...
2025-01-13 11:35:18 1992瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景在之前的文章中我們介紹了字節(jié)的HLLM方案(???字節(jié)HLLM:大模型與推薦系統(tǒng)結(jié)合的新范式??),其中也提到了Meta的HSTU,本文中我們簡(jiǎn)單介紹一些這篇論文。對(duì)應(yīng)的論文為:[2402.17152]ActionsSpeakLouderthanWords:TrillionParameterSequentialTransducersforGenerativeRecommendations對(duì)應(yīng)的代碼庫為:GitHubfacebookresearchgenerativerecommenders二、摘要大規(guī)模推薦系統(tǒng)具有以下特征:依賴于高基數(shù)、異質(zhì)特征,...
2025-01-03 13:35:39 5731瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景在之前的多篇文章中,我們?cè)阈翘岬竭^GPU利用率以及GPU異常引發(fā)的大規(guī)模任務(wù)失敗問題。在本文中,我們將對(duì)這些內(nèi)容進(jìn)行更為系統(tǒng)的匯總,具體介紹常見的GPU監(jiān)控指標(biāo)及各種GPU異常情況。為了更好地說明問題,我們還將結(jié)合我們自己的實(shí)踐經(jīng)驗(yàn)以及其他相關(guān)論文中的案例進(jìn)行分析和討論。二、引言2.1MFU&HFU為了評(píng)估LLM訓(xùn)練時(shí)的效率,業(yè)界通常會(huì)使用ModelFLOPSUtilization(MFU)和HardwareFLOPSUtilization(HFU)兩個(gè)關(guān)鍵...
2024-12-25 12:03:25 4901瀏覽 2點(diǎn)贊 0回復(fù) 1收藏
一、背景前段時(shí)間的文章里我們剛剛介紹過兩個(gè)對(duì)LLM分布式推理場(chǎng)景中AllReduce的優(yōu)化工作,一個(gè)是NVIDIATensorRTLLM中的MultiShot無損優(yōu)化,另一個(gè)是Recogni提出的基于量化壓縮實(shí)現(xiàn)的AllReduce加速方案。本文中我們繼續(xù)介紹美團(tuán)新發(fā)表的AllReduce量化壓縮優(yōu)化方案。對(duì)應(yīng)的論文為:[2412.04964]FlashCommunication:ReducingTensorParallelizationBottleneckforFastLargeLanguageModelInference[1]二、摘要隨著LLM規(guī)模的不斷增長(zhǎng),...
2024-12-17 12:53:04 2362瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景前段時(shí)間的文章里我們剛剛介紹過兩個(gè)對(duì)LLM分布式推理場(chǎng)景中AllReduce的優(yōu)化工作,一個(gè)是NVIDIATensorRTLLM中的MultiShot無損優(yōu)化,另一個(gè)是Recogni提出的基于量化壓縮實(shí)現(xiàn)的AllReduce加速方案。本文中我們繼續(xù)介紹美團(tuán)新發(fā)表的AllReduce量化壓縮優(yōu)化方案。對(duì)應(yīng)的論文為:[2412.04964]FlashCommunication:ReducingTensorParallelizationBottleneckforFastLargeLanguageModelInference[1]二、摘要隨著LLM規(guī)模的不斷增長(zhǎng),...
2024-12-12 13:02:40 3836瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景我們?cè)谥暗奈恼轮刑岬竭^,在A100上進(jìn)行大規(guī)模LLM訓(xùn)練的MFU(模型浮點(diǎn)運(yùn)算利用率)通??梢赃_(dá)到50%60%,而在H100上往往只有40%50%,為什么會(huì)存在這樣的現(xiàn)象,能否進(jìn)一提升對(duì)應(yīng)的性能呢?比如在H100中是否可以達(dá)到60%的MFU?今天介紹一篇新的文章,其采用了一種新的雙鏈技術(shù),可以更好實(shí)現(xiàn)通信與計(jì)算的Overlap,為實(shí)現(xiàn)上述目標(biāo)提供了更多可能。對(duì)應(yīng)的論文為:[2411.15871]HidingCommunicationCostinDistributedLLMTrain...
2024-12-05 11:51:23 2648瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景最近在看騰訊最新混元大模型的Paper時(shí)([2411.02265]HunyuanLarge:AnOpenSourceMoEModelwith52BillionActivatedParametersbyTencent[1]),看到了如下關(guān)于計(jì)算Budget的公式由于我們的工作中也會(huì)經(jīng)常根據(jù)計(jì)算資源Budget評(píng)估LLM預(yù)訓(xùn)練時(shí)間,而該公式與我們平常的計(jì)算方式不太一致;此外,如下圖所示,我們也看到很多文章中將上述公式中的第二項(xiàng)理解為長(zhǎng)序列情況下Attention的額外計(jì)算開銷,而將6ND>9.6ND看成Router引入的...
2024-11-20 15:04:41 2949瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景本文中我們簡(jiǎn)單介紹一個(gè)新的BestofN速度優(yōu)化的論文,其提出了SpeculativeRejection(投機(jī)拒絕),雖然也是用于LLM推理生成加速,但是和SpeculativeDecoding(投機(jī)采樣)場(chǎng)景、方案都很不一樣。對(duì)于基于LLM進(jìn)行高質(zhì)量、大規(guī)模數(shù)據(jù)生成的場(chǎng)景比較有幫助。對(duì)應(yīng)的論文:[2410.20290]FastBestofNDecodingviaSpeculativeRejection對(duì)應(yīng)的代碼庫:GitHubZanetteLabsSpeculativeRejection:[NeurIPS2024]FastBestofNDecodingviaSp...
2024-11-07 15:07:13 2964瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景本文中我們繼續(xù)介紹一個(gè)Intel最新的關(guān)于FP8訓(xùn)練相關(guān)的工作,其在一定程度上分析并解決了FP8訓(xùn)練中的不收斂問題,進(jìn)一步推進(jìn)了FP8訓(xùn)練落地(尤其是在H100H800GPU上)的可行性。對(duì)應(yīng)的論文:[2409.12517]ScalingFP8trainingtotrilliontokenLLMs[1]二、摘要本文中,作者首次在2TToken的數(shù)據(jù)集上使用FP8精度訓(xùn)練了LLM,比以前的限制增加了20倍。通過這些擴(kuò)展訓(xùn)練實(shí)驗(yàn),作者發(fā)現(xiàn)了FP8訓(xùn)練中的關(guān)鍵不確定性,這些不確定性在早...
2024-11-01 15:37:14 2418瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景本文中我們介紹一種最新的KVCache共享論文KVSharer,與之前常見的層內(nèi)共享不同,KVSharer主要關(guān)注跨層共享,并且是整個(gè)層的共享。對(duì)應(yīng)的論文:[2410.18517]KVSharer:EfficientInferenceviaLayerWiseDissimilarKVCacheSharing對(duì)應(yīng)的代碼庫:????https:github.comyangyifei729KVSharertreemain??二、摘要LLM推理過程中對(duì)GPU內(nèi)存的需求不斷增加,而其中Attention的KVCache占據(jù)了超過80%的空間。當(dāng)前,大多數(shù)現(xiàn)有的KV...
2024-10-29 11:47:33 2562瀏覽 0點(diǎn)贊 0回復(fù) 0收藏