自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek爆火后的新Scaling Law究竟是什么? 原創(chuàng)

發(fā)布于 2025-3-14 11:17
瀏覽
0收藏

出品 | 51CTO技術棧(微信號:blog51cto)

嘉賓 | 周博洋、魏新宇

采訪 | 薛彥澤

撰稿 | 李美涵

DeepSeek R1的發(fā)布在全球人工智能領域引發(fā)了巨大反響。這款由中國初創(chuàng)企業(yè)DeepSeek推出的低成本、高性能AI模型,打破了人們對AI研發(fā)“高投入、長周期”的固有認知,被西方媒體譽為“人工智能的斯普特尼克時刻”。

DeepSeek的“奇跡”有目共睹。其應用上線僅20天,日活躍用戶數(shù)就突破了2000萬,而ChatGPT達到同樣的日活量則耗時150天之余。不僅如此,DeepSeek的開源路線也廣受好評,R1成功登頂開源平臺“抱抱臉”最受歡迎模型,還以一己之力開啟了一波開源熱潮,影響不僅波及國內模型廠商,還促使OpenAI的Altman也放出了開源計劃。

另一個近期AI圈的熱點,則是千呼萬喚始出來的GPT-4.5。在“大模型撞墻論”甚囂塵上之際,OpenAI官方承認,GPT-4.5的優(yōu)勢在于規(guī)模龐大,盡管模型參數(shù)量級擴張,但性能并未達到前沿水平。這迫使我們正視:在AI領域,新的時代已經(jīng)開始。

為此,AIGC實戰(zhàn)派特別邀請了微軟(中國)有限公司高級架構師周博洋和AI技術專家魏新宇,就DeepSeek出現(xiàn)后值得關注的熱門話題進行了深入討論和解讀。有趣的是,兩位專家達成了一個共識:預訓練時代并未終結,然而,新的Scaling Law已經(jīng)誕生。

周博洋認為,新的Scaling Law其實是“思考時間”,即模型思考的時間越久,給出的回答質量就越佳。

魏新宇則提出,新Scaling Law的重點在于后訓練的數(shù)據(jù)質量和獎勵模型的設計。誰能在這些問題上有所突破,誰就找到了模型性能提升的第二曲線。

以下是訪談要點:

?預訓練時代的持續(xù):兩位專家一致認為,預訓練和微調仍然是模型學習知識的標準范式。盡管Scaling曲線不再陡峭,但方法本身仍然有效。

?新的Scaling Law:魏新宇認為,新的Scaling Law將出現(xiàn)在訓練數(shù)據(jù)和獎勵模型的設計方面。他從獎勵模型最常見的三種設計講起,揭秘了DeepSeek R1的獎勵算法如何為模型打分。

?強化學習與推理能力:周博洋指出,強化學習之所以在出現(xiàn)很久后,才由R1走通了強推理的路徑,是因為此前基礎模型能力的局限性?!皼]有CoT的能力,強化就沒有意義,因為強化學習不是直接賦予模型推理能力,而是激發(fā)它潛在的推理能力。”

?小模型的強推理能力:魏新宇認為,小模型擁有強推理能力的關鍵在于數(shù)據(jù)強化和訓練方法的選擇。他以微軟的小模型明星Phi-4為例,給小模型的蒸餾和微調提出了一些建議。

?接入DeepSeek的建議:周博洋提供了清晰可行的建議:如果是為了業(yè)務,就選最穩(wěn)的API;如果是日常使用,就選方便易用的。

?AI應用新場景:魏新宇提到,R1的推理能力為AI應用解鎖了新的場景,在教育、科研領域的潛力更大。推理意味著模型不僅能勝任現(xiàn)有知識的問答,還能對未來趨勢做預測,例如預測票房、股市等。

1.預訓練時代終結了嗎?

薛彥澤: 第一個問題,預訓練時代終結了嗎?

魏新宇: 我的觀點是預訓練并沒有結束,它依然是大模型的基礎。比如最近很火的DeepSeek R1,也是基于V3進行強化學習的。預訓練仍然是通用知識庫的來源,所以仍然是必要的。不過,預訓練會與后續(xù)的強化學習結合起來,優(yōu)化以前大規(guī)模消耗算力的預訓練模式。因此不能說預訓練終結,我認為是一種范式的提升。

周博洋: 補充兩句,我覺得預訓練和微調依然是模型學習知識的標準范式。

首先,預訓練和監(jiān)督微調是模型理解知識本源的關鍵步驟。我們會給模型各種數(shù)據(jù),比如互聯(lián)網(wǎng)數(shù)據(jù)、特定領域的數(shù)據(jù)比如MATH-500等等,目的是讓模型理解語義,繼而懂得Token之間的關聯(lián)性。傳統(tǒng)上,預訓練主要是讓模型學會續(xù)寫和理解語言的邏輯,而微調則是讓模型生成符合人類習慣和規(guī)范的文本。

從GPT-3開始,強化學習被引入,最初是為了讓模型對齊人類價值觀,比如避免偏見、暴力等不良內容。但在訓練的過程中,逐漸發(fā)現(xiàn)了強化學習在推理領域的潛力。

至于預訓練是否終結,我覺得現(xiàn)在討論還為時尚早。雖然Scaling的曲線沒有那么陡峭了,大家也從強化學習等其他方向,探索提升能力的路徑。但是預訓練本身仍然有效。

薛彥澤: 那目前Scaling Law的瓶頸怎么突破呢?

周博洋: 還是從兩個維度來看。

第一個維度是算力和模型參數(shù)的關系。在固定的算力體系下,模型參數(shù)和token數(shù)量的關系是關鍵。比如,現(xiàn)在有些模型已經(jīng)接近Scaling Law的極限,但如果能突破這個限制,比如把70B參數(shù)的模型和1.4T的數(shù)據(jù)放大十倍,就會變成700B參數(shù)和14T的數(shù)據(jù),這其實已經(jīng)接近一些現(xiàn)有大模型的規(guī)模了。不過,像DeepMind這樣的研究機構可能覺得已經(jīng)達到算力上限了,但OpenAI的模型成長速度其實還能更快。因為現(xiàn)在更受限于多卡互聯(lián)訓練時的通信損耗,比如馬斯克提到的十萬卡訓練,效率低主要是因為通信損耗。所以,未來可能需要在算力優(yōu)化和通信效率上做更多工作。

第二個維度是數(shù)據(jù)的獲取和利用?,F(xiàn)在很多人認為數(shù)據(jù)挖掘已經(jīng)到底了。但我們忽略了99%的數(shù)據(jù)其實不在集中數(shù)據(jù)里,而是分散在端側設備上,這些數(shù)據(jù)可能因為安全問題無法聯(lián)網(wǎng),價值也沒被挖掘,這可能是突破Scaling Law瓶頸的一個方向。

2.后訓練、推理語境下的新Scaling Law究竟是什么?

薛彥澤: 后訓練、推理語境下的新Scaling Law究竟是什么?

周博洋:我覺得后訓練和推理語境下的新Scaling Law其實跟“思考時間”有關。思維鏈的產(chǎn)生和我的偶像Donald Norman有關,他在大學癡迷玩德國撲克,這個游戲就是思考的事件越長,獲勝概率才會更高。這跟Alpha Go有點像,它們會花很長時間思考,最終戰(zhàn)勝人類。人類大腦也有快思考和慢思考,簡單的事情比如約喝咖啡,很快就能決定;但復雜的事情比如討論算法,就需要很多中間步驟和時間。

魏新宇: 我覺得后訓練和推理語境下的新Scaling Law,重點在于后訓練的數(shù)據(jù)質量和獎勵模型的設計。以前是靠增加模型參數(shù)和數(shù)據(jù)量來提升性能,但現(xiàn)在更多是看怎么優(yōu)化后訓練階段。

現(xiàn)在強化學習領域,獎勵模型的設計也很重要。相當于給模型的答案打分,判斷是否符合人類標準。獎勵方式大概有三種:1. 直接打分:只看答案是否正確來打分;2. 多步驟打分:結合推理步驟和結果一起打分;3. 全步驟打分:每一步都打分,理論上效果最好,但很復雜,實際很難完全實現(xiàn)。

像DeepSeek的話,獎勵模型還會基于一些規(guī)則進行打分,比如推理問題和非推理的問題打分規(guī)則各有側重。比如訓練醫(yī)學問題時,獎勵模型會根據(jù)答案是否正確、正確答案出現(xiàn)的次序位置等因素打分,正確答案越靠前,分數(shù)越高。

薛彥澤: OpenAI宣布從GPT-5開始就做基礎模型和推理模型的混合模型了,那么,后訓練會推動模型的架構進行變革嗎?

周博洋: 首先,任何架構的模型都可以做推理。我覺得后訓練可能會推動模型架構的變革,但目前的核心還是提升效率,而不是徹底改變模型的本質。

從模型架構的改進來看,比如DeepSeek V3模型使用的MoE技術,MoE把模型的FFN層或MLP層變大,理論上能讓模型更好地學習語義,從而提升性能。但問題在于,如果模型太大,推理時會面臨顯存占用過高的問題。因為推理時模型的參數(shù)是固定的,傳統(tǒng)模型會激活所有神經(jīng)元,即使有些神經(jīng)元在推理時并不需要,這就會浪費顯存。

為了解決這個問題,MoE技術在訓練時只激活部分“專家”(即MLP子模塊),而不是全部。這樣可以提高效率,但訓練難度也增加了。比如,Llama 3.1模型被認為是MoE模型,但它的訓練者也承認MoE模型很難訓練充分,因為很難確定哪些專家在推理時真正起作用。

DeepSeek V3模型通過一些函數(shù)強制實現(xiàn)負載均衡,確保所有專家都能被訓練到,這樣MoE技術才能真正發(fā)揮作用。但目前來看,這些改進的核心還是為了提高效率,而不是徹底改變模型的推理方式。模型的變革可能還在路上,目前的重點是讓現(xiàn)有架構更好地支持推理和后訓練。

3.OpenAl o1、o3模型都免費了DeepSeek R1還有優(yōu)勢嗎?

薛彥澤: OpenAl o1、o3模型都免費了DeepSeek R1還有優(yōu)勢嗎?沿著這個思路,我們還想了解兩個開源或者說免費的模型,究竟應該如何比較?DeepSeek的核心優(yōu)勢在哪里?

魏新宇: 我覺得DeepSeek R1還是有優(yōu)勢的,即使OpenAI的o1、o3模型免費了。首先,免費模型雖然開源,但不一定能滿足所有定制化需求。比如DeepSeek R1雖然模型較大,有600多B,部署需要近1T顯存,但它的推理能力很強,而且在特定領域,比如金融行業(yè),可以通過蒸餾或微調來優(yōu)化,讓模型更小、推理速度更快。因為從使用體驗看,R1、o3模型有時候推理一個問題需要長達十幾秒甚至更久,這在生產(chǎn)環(huán)境中可能難以接受。

其次,企業(yè)對數(shù)據(jù)安全和合規(guī)性有很高要求。DeepSeek R1可以通過特定手段確保模型的回答符合人類價值觀和當?shù)胤ㄒ?guī),比如在中東國家避免涉及某些敏感話題。而開源模型在這方面可能需要額外的定制和優(yōu)化。

再者,推理效率和高可用性也是關鍵。DeepSeek R1在推理過程中采用了諸如MLA技術等優(yōu)化手段,通過低秩聯(lián)合壓縮等方式節(jié)省顯存,提升推理速度。尤其是蒸餾以后,去做垂域模型,比全量模型更適合大規(guī)模商業(yè)化部署。

所以,開源或免費模型的優(yōu)勢在于成本低、易獲取,但DeepSeek R1的核心優(yōu)勢在于推理效率、定制化能力、數(shù)據(jù)安全性和高可用性。

薛彥澤:DS的橫空出現(xiàn),會不會改變國內互聯(lián)網(wǎng)的競爭格局?

魏新宇:從技術人員的角度來看,我覺得DeepSeek的出現(xiàn)肯定會對國內模型的競爭格局產(chǎn)生影響,但最終的競爭還是會落到整體生態(tài)上。現(xiàn)在國內AI市場競爭很激烈,大家都在推各種模型,但模型之間的能力差距其實并沒有那么大。比如,R1可能比其他模型強一些,但并不是說它比其他模型高出一大截,大家的能力其實都差不多。

關鍵在于,企業(yè)有沒有自己固有的客戶流量或生態(tài)。比如微信接入DS后,可以基于自己的生態(tài)推動應用;百度也可以通過地圖等業(yè)務,基于模型做附加值的東西。谷歌和微軟也是一樣,谷歌的Gemini有YouTube和其他工具,微軟有自己的辦公軟件生態(tài),這些都是它們的優(yōu)勢。

本文轉載自??51CTO技術棧??,作者:伊風


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-3-14 14:10:25修改
收藏
回復
舉報
回復
相關推薦