本篇分享RAG與longcontext結合的實踐方案。本篇始于一個老生常談的話題,“一旦大模型的ContextLength變大,RAG還有沒有存活的必要?”RAG主要通過問題從知識庫中找相關答案,然后把檢索到的內容再用大模型總結;Longcontext相當于把全部文本內容輸入給大模型,利用大模型查找或總結。這兩者評估的維度包括成本、是否使模型變得更智能、是否可以混合檢索和推理、是否可以緩存、推理時間等等。其實兩者之爭也相當于左右手之爭,...
2025-04-09 12:17:30 1111瀏覽 0點贊 0回復 0收藏
本文介紹一種人類場景交互合成方法人類場景交互(HSI)生成對于具身人工智能、虛擬現(xiàn)實和機器人技術等領域的應用至關重要。雖然現(xiàn)有的方法能夠在三維場景中合成逼真的人類動作,并生成看似合理的人與物體之間的交互,但這些方法嚴重依賴于包含配對的三維場景和動作捕捉數(shù)據(jù)的數(shù)據(jù)集。而在各種不同的環(huán)境和交互情況下收集這些數(shù)據(jù)既昂貴又耗時。本文介紹一種ZeroHSI,通過整合視頻生成技術和神經(jīng)人體技術,實現(xiàn)了零樣本的四維人...
2025-03-24 13:12:04 999瀏覽 0點贊 0回復 0收藏
本篇介紹超參數(shù)(學習率)跨模型尺度的遷移規(guī)律。眾所周知,完整訓練一次大型LLM的成本是昂貴的,這就決定了我們不可能像以前一樣直接在大型LLM上反復測試超參數(shù)。一個很自然的想法是希望可以在同結構的小模型上仔細搜索超參數(shù),找到最優(yōu)組合后直接遷移到大模型上。盡管這個想法很樸素,但要實現(xiàn)它并不簡單,它需要我們了解常見的超參數(shù)與模型尺度之間的縮放規(guī)律,本次介紹的文MaximalUpdateParametrization,簡稱“muP”,正是...
2025-03-17 13:07:44 1138瀏覽 0點贊 0回復 0收藏
本文介紹一種圖像編碼的方法。圖像標記化推動了自回歸圖像生成發(fā)展,但傳統(tǒng)2D網(wǎng)格標記和現(xiàn)有1D標記方法存在不足,如無法適應圖像內在復雜性。FlexTok創(chuàng)新之處在于可將2D圖像投影為可變長度、有序的1D標記序列,圖像標記化通過提供一種比原始像素更高效、更易處理的壓縮離散表示,極大地推動了自回歸圖像生成的發(fā)展。傳統(tǒng)方法多采用二維網(wǎng)格標記化,但像TiTok這樣的最新研究表明,一維標記化能夠通過消除網(wǎng)格冗余來實現(xiàn)高質量的...
2025-03-03 09:37:53 1413瀏覽 0點贊 0回復 0收藏
本篇主要總結目前三種scalinglaw:Pretrain、RL、TestTime相關的內容?,F(xiàn)在關于scalinglaw是否“撞墻”的討論越來越多,ChinchillaScalingLaw推斷,"即使沒有新數(shù)據(jù),也并不意味著模型效果提不上去了,很簡單,只要增加基座模型尺寸,效果仍然會提高,只是從付出的算力和獲得的效果提升來說很不合算,性價比過低"。這也是為什么大家由PretrainScalingLaw轉到RLScalingLaw和TestTimeScalingLaw的原因。本篇就來以面經(jīng)的形式整理...
2025-02-27 12:50:47 2214瀏覽 0點贊 0回復 0收藏
?本篇分享SFT和RL在大模型訓練中起到的作用。監(jiān)督微調(SFT)和強化學習(RL)都是目前大模型的基礎模型后訓練技術,像DeepSeekR1、kimi等的訓練方法都將兩種技術應用到了極致。如何去設計訓練步驟(先SFT再RL,還是直接RL)都需要對SFT和RL的能力有較深刻的了解。本篇就以面經(jīng)的形式,探討SFT、RL兩種不同的后訓練范式在基于文本規(guī)則和視覺變體的情況下對模型記憶與泛化能力的作用。下面是一個快捷目錄。一、SFT和RL分別對基座大...
2025-02-21 16:17:38 1897瀏覽 0點贊 0回復 0收藏
本文介紹一種視覺tokenizer的生成。AIGC生成模型在人工智能領域發(fā)展迅速,視覺生成主要有基于語言模型和擴散模型兩種范式,而tokenizer是其核心組件?,F(xiàn)有tokenizer分別針對圖像或視頻輸入設計,存在應用靈活性和數(shù)據(jù)可擴展性的局限。因此需要一種聯(lián)合圖像視頻標記器,以實現(xiàn)從兩種數(shù)據(jù)中聯(lián)合學習,緩解單模態(tài)數(shù)據(jù)稀缺問題,并提高模型的通用性和可擴展性。今天介紹一種OmniTokenizer方法,感興趣的小伙伴可以看看原文:https:a...
2025-01-09 10:15:07 1605瀏覽 0點贊 0回復 0收藏
本篇總結了多模態(tài)大模型的評測任務和指標。目前多模態(tài)大型語言模型(MLLMs)的研究主要集中在模型架構和訓練方法上,但用于評估這些模型的基準測試的分析還比較少。另外目前評測可能還存在三大問題:目標不一致:每個模態(tài)、基準測試都有不同的目標,導致研究領域碎片化。任務飽和:多樣化目標驅動的任務激增,這種飽和使得很難辨別真正創(chuàng)新或有影響力的基準測試,導致寶貴的資源被忽視或利用不足。指標演變與差異:曾經(jīng)推出發(fā)一...
2024-12-20 14:47:59 6530瀏覽 0點贊 0回復 0收藏
?本文將以LLaVA和MiniGPT4為例介紹多模態(tài)大模型數(shù)據(jù)構造的方式。數(shù)據(jù)質量是決定多模態(tài)模型性能的關鍵因素。高質量的數(shù)據(jù)能夠減少噪聲干擾,提高模型的學習和預測準確性。同時多模態(tài)數(shù)據(jù)的多樣性直接影響模型的泛化能力。一個包含豐富多樣數(shù)據(jù)的集合能夠訓練出更加健壯的模型,使其能夠在不同的應用場景中表現(xiàn)良好。本文以LLaVA和MiniGPT4為例,介紹相關多模態(tài)數(shù)據(jù)的構造過程,給大家在訓練或者微調自己的多模態(tài)模型提供思路。L...
2024-11-19 12:54:36 2442瀏覽 0點贊 0回復 0收藏
?本篇總結了顯卡利用率評估方法及顯卡運用優(yōu)化方法。本篇來總結一些顯卡優(yōu)化的經(jīng)驗,還是按照面經(jīng)的形式給出,希望能給到大家一些實際訓練效率優(yōu)化的幫助下面是一個快捷目錄。一、如何評估顯卡利用率?二、如何優(yōu)化顯存利用率?一、如何評估顯卡利用率使用deepseed時,zero3如果沒有nvlink,多卡訓練下會變慢很多,下面有三種方法來評估訓練時發(fā)揮了多少GPU性能。1.flops比值法采用Nvidia可參考的顯卡峰值計算速度進行計算gpu...
2024-11-19 12:51:31 2467瀏覽 0點贊 0回復 0收藏
本文介紹經(jīng)典模型之SwinTransformer。SwinTransformer是一種經(jīng)典的視覺Transformer架構,專為計算機視覺任務設計,通過層次化的特征表達和創(chuàng)新的移位窗口自注意力機制,有效地處理高分辨率圖像,具有通用性和靈活性,適用于圖像分類、目標檢測和語義分割等多種視覺任務。感興趣的小伙伴可以看看論文:??https:arxiv.orgabs2103.14030??模型介紹上圖為SwinTransformer模型圖。整個模型采取層次化的設計,一共包含4個Stage,...
2024-11-08 12:36:25 3253瀏覽 0點贊 0回復 0收藏
?分布式訓練指南理論篇。本篇來總結一些分布式訓練的知識,還是按照面經(jīng)的形式給出,希望能給到大家一些幫助。題目1訓練一個LLM,需要的顯存規(guī)模跟參數(shù)的關系是什么?2.如果有N張顯存足夠大的顯卡,怎么加速訓練?3.如果有N張顯卡,但每個顯卡顯存都不足以裝下一個完整的模型,應該怎么辦?4.PP推理時是串行的,1個GPU計算但其他空閑,有什么其他的優(yōu)化方式?5.DP、TP、PP這3種并行方式可以疊加嗎?6.3D并行或者直接上多機多卡...
2024-11-04 13:56:14 1934瀏覽 0點贊 0回復 0收藏
本文介紹LLM大模型中其中一種思維鏈DoT。盡管傳統(tǒng)的思維鏈方法使大型語言模型能夠進行“思考”,例如思維樹和思維圖方法通過引入分叉結構來探索多種推理路徑。然而,這些方法通常需要額外的控制機制或依賴多個模型的協(xié)同工作,這無疑增加了實現(xiàn)和部署的難度。清華大學的研究團隊最近提出了一個新的思維鏈框架思維圖(DiagramofThought,DoT),號稱是能夠超越線性思維的突破。感興趣的小伙伴可以看看原文:??https:arxiv.orgp...
2024-10-29 14:06:42 1852瀏覽 0點贊 0回復 0收藏
?RAG工程經(jīng)驗面經(jīng)總結。雖然RAG工程整體有很多論文、算法和方法論,但在實際使用過程中,當數(shù)據(jù)量大了RAG很容易出現(xiàn)不可控的問題,本篇就針對實踐過程中遇到的問題總結面經(jīng)進行分享,看看能不能給大家提供一些幫助。下面是一個快捷目錄。一.RAG如何去優(yōu)化索引結構?二.當混合檢索以及基于不同大小的chunk去檢索效果都不太好的時候,如何優(yōu)化?三.如何通過rerank去提升RAG效果的,有哪些方案?下面是答案。一.RAG如何去優(yōu)化索引...
2024-10-24 13:29:30 2237瀏覽 0點贊 0回復 0收藏
?本文介紹視覺目標檢測模型YOLOv11。2024年9月30日,在YOLOVision活動上,Ultralytics團隊正式宣布發(fā)布YOLOv11。短短2年,YOLO就從YOLOv8一下子迭代到YOLOv11,可見目前AI的發(fā)展速度。感興趣的小伙伴可以看看官方的倉庫:https:github.comultralyticsultralytics模型介紹對比YOLOv8(Ultralytics前一代出品),主要有三個模型結構的變化:C3k2機制。上圖為C3k的網(wǎng)絡結構圖,2是指調用時C3k其中的參數(shù)N固定設置為2。不過從結構...
2024-10-18 15:26:52 5684瀏覽 0點贊 0回復 0收藏
?本篇將介紹MoE(MixtureofExperts,混合專家模型)相關面試題。以下是一個快捷目錄:一、MoE介紹二、MoE出現(xiàn)的背景三、有哪些MoE模型四、介紹稀疏MoE層五、介紹門控網(wǎng)絡或路由六、為什么門控網(wǎng)絡要引入噪聲呢七、如何均衡專家間的負載八、“專家”指什么九、專家的數(shù)量對預訓練有何影響?十、什么是topK門控十一、MoE模型的主要特點十二、MoE和稠密模型的對比十三、MoE的優(yōu)勢十四、MoE的挑戰(zhàn)十五、微調MoE的方法十六、MoE的并...
2024-10-17 11:31:53 2436瀏覽 0點贊 0回復 0收藏
?本篇介紹多模態(tài)大模型中如何基于最終結果分析各模態(tài)的影響。具身智能被眾多大佬看好,通往AGI的路最終肯定需要多個模態(tài)的大模型互相融合。多個模態(tài)配合好也是有可能去構建一個模擬現(xiàn)實的世界模型的。最近一直在研究和嘗試多模態(tài)大模型在一些VQA領域的前瞻研究和實際落地部署問題,遇到一個值得思考的問題:如果當預測結果出問題的時候,怎么去溯源是哪個模態(tài)的數(shù)據(jù)出的問題呢?這個方向感覺探索的足夠深入是可以發(fā)論文的。由...
2024-10-17 11:27:13 1897瀏覽 0點贊 0回復 0收藏
?本篇介紹Langchain相關面試題。本次將會分為上下兩個部分,本篇章將會介紹前三個問題,下一次在將后三個問題補充完畢。以下是一個快捷目錄:什么是LangChain?LangChain包含哪些部分??LangChain中ChatMessageHistory是什么??介紹一下LangChainAgent?LangChain如何Embedding&vectorstore??LangChain存在哪些問題及方法方案什么是LangChainLangChain是一個基于語言模型的框架,用于構建聊天機器人、生成式問答(GQA)、...
2024-10-17 11:14:22 2007瀏覽 0點贊 0回復 0收藏
LoRA面經(jīng)搜集總結。大家的顯卡都比較吃緊,LoRA家族越來越壯大,基于LoRA出現(xiàn)了各種各樣的改進,最近比較火的一個改進版是dora,聽大家反饋口碑也不錯。基于PEFT的話用409024G顯存也可以進行大模型的微調,所以LoRA家族這塊還是很有研究和實際落地的潛力。LoRA整個系列分為兩個部分:1、LoRA總述2、LoRA家族演進本篇開始介紹第一部分:LoRA總述,盡量以面經(jīng)問題的形式提出并解答,下面是一個快捷目錄。一、概念1.簡單介紹一下Lo...
2024-10-17 10:40:37 2443瀏覽 0點贊 0回復 0收藏
?RAG相關理論知識與經(jīng)驗整理。談到大模型在各垂直領域中的應用,一定離不開RAG,本系列開始分享一些RAG相關使用經(jīng)驗,可以幫助大家在效果不理想的時候找到方向排查或者優(yōu)化。本系列以醫(yī)療領域為例,用面試題的形式講解RAG相關知識,開始RAG系列的分享本篇主要是理論知識與經(jīng)驗;后續(xù)會結合最新的優(yōu)化方法給出詳細的優(yōu)化代碼,和實踐中衍生的思考。下面是本篇的快捷目錄。1.RAG思路2.RAG中的prompt模板3.檢索架構設計一、RAG思...
2024-10-16 10:24:11 2628瀏覽 0點贊 0回復 0收藏