AI Infra的起飛前夜,跟兩位創(chuàng)業(yè)者聊了兩小時(shí),從DeepSeek的中國(guó)朋友圈,到AI基建演進(jìn)的價(jià)值鐵律:流量重賞下的勇夫
原創(chuàng) 精選作者 | 云昭
嘉賓 | 黃新平、譚中意
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
“人生不無(wú)聊,有太多變化,太多好玩的事情發(fā)生。”
的確,近期圍繞DeepSeek的新發(fā)布實(shí)在太多了,亂花漸欲迷人眼。從春節(jié)期間企業(yè)搶先宣布接入DeepSeekR1、繼而接入滿(mǎn)血版R1,到DeepSeek一體機(jī)的出圈,再到國(guó)民應(yīng)用微信的接入,潮潮迭起。可以說(shuō),從B端到C端,幾乎徹底沸騰了。
“幾乎所有做智能體的公司都很興奮,尋找落地機(jī)會(huì),還有做企業(yè)級(jí)應(yīng)用、知識(shí)庫(kù)的公司也在適配,這些都是能賺錢(qián)的領(lǐng)域。DeepSeek讓適配變得容易,是因?yàn)樗捎昧硕鄬?zhuān)家路由,并且平衡了計(jì)算、通信和存儲(chǔ)之間的關(guān)系。這些都為未來(lái)半導(dǎo)體產(chǎn)業(yè)指明了方向?!?/span>
在AI和半導(dǎo)體領(lǐng)域持續(xù)創(chuàng)業(yè)的黃新平對(duì)于DeepSeek所帶來(lái)的機(jī)會(huì),做出了非常樂(lè)觀的判斷,言語(yǔ)間充斥著創(chuàng)業(yè)者獨(dú)有的興奮和期待。
同樣,親身經(jīng)歷了百度、騰訊、第四范式等國(guó)內(nèi)IT基礎(chǔ)設(shè)施10余年變化的譚中意,更是對(duì)DeepSeek帶來(lái)的機(jī)會(huì)高度認(rèn)可:我們現(xiàn)在處于AI Infra新一代的起飛前夜。
不過(guò)“起飛”不是一句空談,背后有無(wú)數(shù)已知或未知的難題有待探討。
3月11日,51CTO獨(dú)家技術(shù)訪談欄目《AI實(shí)戰(zhàn)派》有幸與算力自由創(chuàng)始人黃新平、中國(guó)開(kāi)源推進(jìn)聯(lián)盟的常務(wù)副秘書(shū)長(zhǎng)譚中意進(jìn)行了2個(gè)小時(shí)的對(duì)話,我們從DeepSeek的生態(tài)朋友圈聊起,探討了很多AI Infra創(chuàng)業(yè)中,那些“開(kāi)放但又必須回答”的問(wèn)題。
比如,在各家OEM廠商適配DeepSeek過(guò)程中,有哪些獨(dú)創(chuàng)性空間?黃新平舉了一個(gè)硬件互聯(lián)的例子。硬件互聯(lián)不僅涉及硬件,更多還是軟硬件一體的配置的問(wèn)題?!耙訡PU設(shè)計(jì)為例,CPU的緩存空間和計(jì)算單元,以及包括通信的配比,都是非常秘密的一件事情?;旧隙际腔藷o(wú)數(shù)代價(jià),才能找到一個(gè)合適的配比,從而做出一個(gè)合適的芯片?!?/span>
此外,回顧過(guò)去中國(guó)基礎(chǔ)架構(gòu)不斷更迭的20多年,譚中意總結(jié)出一個(gè)AI Infra的價(jià)值鐵律——“只有AI應(yīng)用的流量起來(lái)了,底層 AI 基礎(chǔ)設(shè)施的價(jià)值才會(huì)真正體現(xiàn)出來(lái)。”
再比如,關(guān)于AI Infra創(chuàng)業(yè)“如何擺脫純賣(mài)API不掙錢(qián)、找到PMF”的問(wèn)題,兩位老師提到了破局的癥結(jié),即AI Infra的價(jià)值—— “人是為價(jià)值而付費(fèi)的,不是為資源付費(fèi)。”黃新平還給出了一個(gè)很好的打法:
“比如AI生成圖片,用戶(hù)文生圖生成了一張圖可能只需要花幾分錢(qián)到一毛錢(qián),但是如果你拿這張圖去幫設(shè)計(jì)師去交付了一個(gè)東西,你可能就會(huì)賺到100-200塊錢(qián),這時(shí)候那你的定價(jià)一定不是用幾毛錢(qián)來(lái)定價(jià)的,而是用那100到200塊錢(qián)去定價(jià),這時(shí)候你才找到了你的PMF。”
大模型時(shí)代瞬息萬(wàn)變,接下來(lái)的3到5年,AI Infra的視野又會(huì)是什么格局?
嘉賓們統(tǒng)一認(rèn)為,“性能要上去,成本要下來(lái)”將是這段時(shí)間的主旋律。譚中意判斷,未來(lái)3年可能并不會(huì)出現(xiàn)革命性的東西,數(shù)據(jù)飛輪和實(shí)時(shí)性都難以達(dá)到,重點(diǎn)工作依舊是新有能力的進(jìn)一步提升,比如更高效率的訓(xùn)練,更低成本、更大容量的推理。
然而,這并不意味著不會(huì)有新的范式出現(xiàn)。黃新平判斷,也許在未來(lái),通信互聯(lián)架構(gòu)方面,包括像內(nèi)存池這樣的技術(shù),也許會(huì)出現(xiàn)新的計(jì)算范式。而在訓(xùn)練層面上,顯然 AI Infra 是朝著大機(jī)方向去的,而在推理層面上可能會(huì)變成更多的異構(gòu)計(jì)算。
“歷史是循環(huán)的,從大機(jī)拆成小機(jī),現(xiàn)在又用小機(jī)聚合成大機(jī)。”因?yàn)?,更快的互?lián)技術(shù),就意味著可以在一個(gè)相對(duì)大一點(diǎn)的分布式計(jì)算系統(tǒng),性能是能上去的。
黃新平對(duì)于中國(guó)AI Infra的互聯(lián)技術(shù)的突破滿(mǎn)懷期待?!盎ヂ?lián)部分,國(guó)內(nèi)外差距尤其大。國(guó)內(nèi)的NVLink沒(méi)有,IB(InfiniBand)也沒(méi)有,而英偉達(dá)其實(shí)已經(jīng)不滿(mǎn)足于現(xiàn)狀,開(kāi)始對(duì)硅光互聯(lián)進(jìn)行研究,還有谷歌奔著800G、1.6T這樣的互聯(lián)速度去前進(jìn)。所以這一塊的話,國(guó)內(nèi)還有很大的空間可以做,我判斷互聯(lián)這個(gè)層面上可能會(huì)進(jìn)步更快?!?/span>
潮水涌來(lái),人們總是首先將目光投向一夜爆火的AI應(yīng)用。但殊不知,與之成長(zhǎng)與進(jìn)化的AI Infra,也正在開(kāi)啟新的創(chuàng)業(yè)故事。
“即便我們判斷未來(lái)趨于漸進(jìn)式發(fā)展而非革命性變化,但有需求就會(huì)有人去做。”
料還很多,還有很多關(guān)于諸如百度、騰訊、愛(ài)奇藝、英特爾、谷歌這些知名企業(yè)在過(guò)去20余年的潮落潮起的取舍敘事,可謂妙趣橫生。
篇幅原因,下面是整理的訪談內(nèi)容,供諸位閱讀。
DeepSeek的中國(guó)、國(guó)際朋友圈正在形成
AI實(shí)戰(zhàn)派:DeepSeek作為大家看好的生態(tài),它的朋友圈都有哪些,又會(huì)擴(kuò)大到哪些領(lǐng)域呢?
譚中意:我最近寫(xiě)了一篇博客,稱(chēng) DeepSeek為國(guó)運(yùn)級(jí)創(chuàng)新,不是因?yàn)樗诩夹g(shù)創(chuàng)新上能與 transformer 或 GPT4 相提并論,而是在于它在短短兩個(gè)月內(nèi)就在國(guó)內(nèi)外達(dá)成了初步的產(chǎn)業(yè)共識(shí),這是前所未有的。我將它的生態(tài)圈分為四層。最底層是基石層或基礎(chǔ)設(shè)施層,包括 GPU、CPU、操作系統(tǒng)、網(wǎng)絡(luò)硬件、IDC 一體機(jī)等。第二層是云服務(wù)層,涵蓋公有云、私有云以及 Maas 等服務(wù)廠商。第三層是企業(yè)軟件層,像用友、金蝶等做的 ERP、CRM、BI 軟件以及行業(yè)軟件,它們紛紛用 DeepSeek增強(qiáng)自身功能。第四層是甲方軟件層,甲方將 DeepSeek集成到自研業(yè)務(wù)中,主要用于提升效率。目前來(lái)看,DeepSeek在生態(tài)圈內(nèi)已經(jīng)初步形成了產(chǎn)業(yè)共識(shí),國(guó)內(nèi)外的知名云廠商除了谷歌外,都支持它,芯片廠家也都宣稱(chēng)支持,軟件廠商更是如此。我覺(jué)得生態(tài)圈的形成特別有意思,它已經(jīng)成為了事實(shí)標(biāo)準(zhǔn)。
黃新平:我這里從時(shí)間維度來(lái)說(shuō)。首先是國(guó)內(nèi)服務(wù)廠商迅速跟進(jìn),各大廠商的速度之快超乎想象,他們迅速推出服務(wù)。因?yàn)?DeepSeek開(kāi)源且是 MIT license,不受限制,廠商們不缺資源和人,能快速搭建應(yīng)用,服務(wù)更多用戶(hù)。接著是國(guó)產(chǎn)芯片廠商迅速表態(tài),生怕落后,都宣布完成適配。然后是各地反思為什么DeepSeek沒(méi)有出現(xiàn)在本地。之后是一體機(jī) OEM 廠商行動(dòng)起來(lái),發(fā)揮傳統(tǒng)優(yōu)勢(shì)制造一體機(jī),但我認(rèn)為一體機(jī)不僅僅是硬件,更多是要解決端到端的問(wèn)題,目前還遠(yuǎn)未達(dá)到這個(gè)層次。長(zhǎng)遠(yuǎn)來(lái)看,幾乎所有做智能體的公司都很興奮,尋找落地機(jī)會(huì),還有做企業(yè)級(jí)應(yīng)用、知識(shí)庫(kù)的公司也在適配,這些都是能賺錢(qián)的領(lǐng)域。
DeepSeek讓適配變得容易,是因?yàn)樗捎昧硕鄬?zhuān)家路由,并且平衡了計(jì)算、通信和存儲(chǔ)之間的關(guān)系。這些都為未來(lái)半導(dǎo)體產(chǎn)業(yè)指明了方向。按照這個(gè)方向去做是沒(méi)有錯(cuò)的。我認(rèn)為半導(dǎo)體產(chǎn)業(yè)會(huì)發(fā)生變化,從半導(dǎo)體層面的優(yōu)化來(lái)看,尤其是通信庫(kù)這一塊可能會(huì)有人重寫(xiě)。像剛才提到的 3FS 這樣的東西,未來(lái)會(huì)變得更加通用。它現(xiàn)在是為了訓(xùn)練而設(shè)計(jì)的,未來(lái)會(huì)在更通用的層面上做更多適配和應(yīng)用場(chǎng)景的開(kāi)發(fā),也會(huì)有人去做這些工作。我覺(jué)得這對(duì) AI 推理領(lǐng)域是比較重大的影響。
譚中意:補(bǔ)充一下,我覺(jué)得在上層應(yīng)用層,影響也非常大。在 DeepSeek 出現(xiàn)之前,國(guó)內(nèi)是沒(méi)有可以用的,因?yàn)樾Ч玫?LLM 例如 Claude 在國(guó)內(nèi)是不能落地的。但 DeepSeek 不僅開(kāi)源,還在國(guó)內(nèi)通過(guò)了注冊(cè),是一個(gè)合規(guī)可用的產(chǎn)品。所以基于 DeepSeek 進(jìn)行 Agent 開(kāi)發(fā),把上限打開(kāi)了,降低了難度,讓大部分應(yīng)用開(kāi)發(fā)人員非常高興,因?yàn)樗麄兘K于可以在各個(gè)場(chǎng)合使用這種高性能的大模型,不用擔(dān)心部署和合規(guī)問(wèn)題。
AI Infra的演進(jìn)逃不開(kāi)價(jià)值鐵律:只有流量起來(lái)了,Infra的價(jià)值才會(huì)真正體現(xiàn)出來(lái)
AI實(shí)戰(zhàn)派:AI Infra經(jīng)歷了哪幾個(gè)階段,DeepSeek之后發(fā)生了哪些變化?
譚中意:好,我簡(jiǎn)單回顧一下。首先,AI 推理最早是從谷歌的三篇文章開(kāi)始的,那三篇文章介紹了大規(guī)模分布式存儲(chǔ)和計(jì)算是什么樣子的,然后 Hadoop 就出現(xiàn)了。在國(guó)內(nèi)最早采用的是百度和騰訊。百度在2009年開(kāi)始研究,2011年成立第一個(gè)基礎(chǔ)架構(gòu)部。這是第一代 Data Infra,主要特征是大規(guī)模分布式存儲(chǔ)和計(jì)算,主要用于離線計(jì)算,給商業(yè)分析人員生成分析報(bào)告。主要的技術(shù)棧是 MapReduce、HDFS,再加上 HBase。雖然當(dāng)時(shí) MapReduce 很慢,但大家也能忍著用,因?yàn)闃I(yè)務(wù)確實(shí)需要。這是第一代 Data Infra 基礎(chǔ)設(shè)施,它是為大數(shù)據(jù)準(zhǔn)備的,還不能稱(chēng)之為 AI 基礎(chǔ)設(shè)施。
直到2011年、2012年深度學(xué)習(xí)開(kāi)始火起來(lái),各大搜索廠商開(kāi)始把搜索算法從最初的邏輯回歸切換到深度學(xué)習(xí)模型算法,對(duì)底層數(shù)據(jù)和計(jì)算的要求更高了。推薦也越來(lái)越往前走,尤其是抖音出現(xiàn)后,大家更明白推薦要有好效果,必須跟實(shí)時(shí)數(shù)據(jù)相結(jié)合。這時(shí)候我覺(jué)得已經(jīng)進(jìn)入到了 AI 基礎(chǔ)設(shè)施的第一代,也可以稱(chēng)之為基礎(chǔ)設(shè)施的第二代。它主要的場(chǎng)景是給搜索、廣告和推薦服務(wù),相對(duì)于第一代大數(shù)據(jù)infra的不同在于它加了很多實(shí)時(shí)計(jì)算的內(nèi)容。實(shí)時(shí)計(jì)算就是當(dāng)時(shí) AI 推理的主要工作,我在第四范式的時(shí)候也廣泛調(diào)研和參與了 AI 推理的相關(guān)研究。AI 推理主要保證機(jī)器學(xué)習(xí)從訓(xùn)練到推理階段的數(shù)據(jù)高質(zhì)量供給和一致性,這其實(shí)是最具挑戰(zhàn)性的。當(dāng)時(shí)也出現(xiàn)了一堆創(chuàng)業(yè)公司,像tecton等,這些創(chuàng)業(yè)公司其實(shí)都是在整個(gè) pipeline 里提供高效的數(shù)據(jù)供給。這一代最有代表性的大公司是 DataBricks,它的看家本領(lǐng)就是實(shí)時(shí)計(jì)算和批處理階段的東西。這是 AI 基礎(chǔ)設(shè)施的第一代。
然后大模型出來(lái)了,這時(shí)候 AI 基礎(chǔ)設(shè)施的主要工作是支持大模型的訓(xùn)練。但能干這個(gè)活的公司不多,廣大研發(fā)人員其實(shí)很尷尬,因?yàn)閼?yīng)用場(chǎng)景沒(méi)有起來(lái),流量也沒(méi)有起來(lái),干活也插不上手,主要是因?yàn)榇竽P偷哪芰€沒(méi)有達(dá)到商業(yè)可用,用戶(hù)不買(mǎi)單,這是一個(gè)很郁悶的階段。
直到現(xiàn)在,終于有一個(gè)開(kāi)源的、性能不錯(cuò)且成本低的模型出來(lái)了,這時(shí)候廣大應(yīng)用開(kāi)發(fā)人員終于可以去擁抱新的大模型了,然后可以轉(zhuǎn)型成為大模型應(yīng)用開(kāi)發(fā)人員。他們一轉(zhuǎn)型,應(yīng)用起來(lái)了,流量就上來(lái)了,各種各樣的需求就出現(xiàn)了,對(duì)底層 AI 基礎(chǔ)設(shè)施的要求也從訓(xùn)練變成了大規(guī)模推理,怎么去扛流量、怎么去做穩(wěn)定性這些事情。之前大家可以看到,有些大廠會(huì)說(shuō)服務(wù)經(jīng)常被拒絕,但除了 OpenAI 之外,其他都沒(méi)有,因?yàn)楦骷伊髁慷紱](méi)起來(lái)?,F(xiàn)在只有 DeepSeek出來(lái)之后,發(fā)現(xiàn)流量真的起來(lái)了。而只有流量起來(lái)了,底層 AI 基礎(chǔ)設(shè)施的價(jià)值才會(huì)真正體現(xiàn)出來(lái)。因?yàn)檫@時(shí)候你對(duì)底層 AI 基礎(chǔ)設(shè)施的所有調(diào)優(yōu)都會(huì)直接轉(zhuǎn)化為成本的縮減、性?xún)r(jià)比的提升。
之前,大批AI Infra的研發(fā)人員是沒(méi)有用武之地的,因?yàn)闆](méi)有流量,但現(xiàn)在流量起來(lái)了,AI Infra提升一點(diǎn)就能省很多錢(qián),這時(shí)候廣大 AI 基礎(chǔ)設(shè)施研發(fā)人員也就有用武之地了。
AI實(shí)戰(zhàn)派:很透徹。因?yàn)楝F(xiàn)在有流量、有數(shù)據(jù),可以看到底層調(diào)優(yōu)后數(shù)據(jù)有多大提升,成就感立馬就來(lái)了。
譚中意:Infra始終是跟流量打交道的,流量不出來(lái)、上不到一個(gè)等級(jí),你的技術(shù)價(jià)值就體現(xiàn)不出來(lái)。因?yàn)橥瑯拥膽?yīng)用,扛十萬(wàn)的 QPS 和扛百萬(wàn)的 QPS,架構(gòu)完全是不一樣的。
重賞之下有勇夫:接下來(lái)從業(yè)者的核心側(cè)重點(diǎn)需要重新定義
AI實(shí)戰(zhàn)派:對(duì)于從業(yè)者來(lái)說(shuō),大模型時(shí)代以后,他的核心競(jìng)爭(zhēng)力是不是要重新定義一下?
黃新平:這個(gè)確實(shí)不太一樣。大概從 AI 剛開(kāi)始興起的時(shí)候,我一開(kāi)始做這一塊,第一件事其實(shí)是服務(wù)于公司內(nèi)部的開(kāi)發(fā)人員,那些科學(xué)家。當(dāng)時(shí) GPU 很貴,他們基本上一人占一臺(tái),環(huán)境很難處理,數(shù)據(jù)也不容易拷貝上來(lái)。所以我在愛(ài)奇藝進(jìn)去第一件事就是要優(yōu)化這一塊的使用,做的第一件事就是資源池化,先把 GPU 池化管理起來(lái),然后能夠動(dòng)態(tài)調(diào)度訓(xùn)練任務(wù)和開(kāi)發(fā)任務(wù),這樣能達(dá)到節(jié)省成本的效果。
很快 AI 就要進(jìn)入應(yīng)用了,最早的時(shí)候是訓(xùn)練,然后在后面的話,搜廣推是最有價(jià)值、最有用處的一塊。當(dāng)時(shí)最早的時(shí)候,線性回歸這些模型的效果跟深度模型效果差別還是很大的。當(dāng)時(shí)愛(ài)奇藝一年的主要收入其實(shí)來(lái)源于廣告,接近百億級(jí)別。而當(dāng)時(shí)我們看到像谷歌的 DeepMind 那樣,它號(hào)稱(chēng)能夠提高10%的效果,那10%的效果就意味著十個(gè)億,重賞之下必有勇夫。然后當(dāng)時(shí)我們團(tuán)隊(duì)里面就把推理速度優(yōu)化了一下,因?yàn)樯狭松疃饶P停评硭俣染筒恍?。從你打開(kāi)界面到看到廣告一共是100毫秒的時(shí)間,給深度模型做推理的時(shí)間,99%要在25毫秒之內(nèi)完成。當(dāng)時(shí)Wide&Deep 因?yàn)槭莻€(gè)深度模型,跑下來(lái)要50多毫秒,最后優(yōu)化到7個(gè)毫秒左右,這個(gè)東西就變成可用的了。
還有一個(gè)就是數(shù)量方面,因?yàn)閻?ài)奇藝日活在比較好的時(shí)候,是在一個(gè)億左右,每天對(duì)外推送的廣告推送服務(wù)量是萬(wàn)億次的級(jí)別,所以這個(gè)龐大的集群在底下去服務(wù)著,你的效率一點(diǎn)點(diǎn)提升,省下來(lái)的就是成百上千臺(tái)服務(wù)器。推理的價(jià)值就體現(xiàn)出來(lái)了。
AI實(shí)戰(zhàn)派:那大家都用上大模型之后,您認(rèn)為是提升推理速度還是其他方面更為重要?
黃新平:我覺(jué)得推理速度其實(shí)就表明了你的成本?,F(xiàn)在大模型除了能力之外,還有成本。大模型要推廣,首先要能解決問(wèn)題,我覺(jué)得這個(gè)基礎(chǔ)能力現(xiàn)在是有的。但對(duì)于復(fù)雜的應(yīng)用,其實(shí)不是簡(jiǎn)單一個(gè)模型就能解決所有問(wèn)題,它往往需要梳理整個(gè) TOB 的業(yè)務(wù)流程,在其中找到大模型可以發(fā)揮作用的部分,這一部分是需要比較漫長(zhǎng)的開(kāi)發(fā)過(guò)程,也比較昂貴。這是能力方面。
第二部分就是成本,你一定要成本足夠低,它才能夠體現(xiàn)出更好的價(jià)值。成本其實(shí)來(lái)源于軟硬件兩方面的優(yōu)化。一方面,軟件的模型結(jié)構(gòu),像現(xiàn)在的 MOE 這樣的結(jié)構(gòu),其實(shí)使推理成本大幅度降低。如果你的優(yōu)化加上硬件的發(fā)展,幾條加起來(lái),可能不是簡(jiǎn)單的摩爾定律那樣一倍一倍的提高,而是指數(shù)級(jí)的提高。成本大幅度下降之后,就會(huì)釋放出巨大的使用空間。
AI實(shí)戰(zhàn)派:那硬件方面,底層適配這塊呢?
黃新平:適配是一塊。除了英偉達(dá)的 GPU 本身對(duì)國(guó)內(nèi)是禁運(yùn)的,現(xiàn)在看起來(lái)比較好的,比如671B 的參數(shù),正常配置是 H20 的141G 的。一個(gè)八卡機(jī)才能完整地推這個(gè)滿(mǎn)血版,但 H20 的141G 其實(shí)在邊緣上,很有可能就會(huì)被禁,更高檔的完全是沒(méi)有的。所以這一塊的話,國(guó)產(chǎn)芯片必須要跟上來(lái)?,F(xiàn)在國(guó)產(chǎn)芯片很多完成了功能適配,能跑,但有些國(guó)產(chǎn)芯片其實(shí)跑的不是滿(mǎn)血版,跑的是蒸餾版的更小的,沒(méi)有實(shí)際價(jià)值。真正跑到滿(mǎn)血版的時(shí)候,性能必須達(dá)到跟國(guó)際相當(dāng)?shù)乃健?/span>
你的硬件已經(jīng)設(shè)計(jì)成這樣了,那你就要學(xué)習(xí) DeepSeek開(kāi)源的做法,在自己的硬件特性上,實(shí)現(xiàn)動(dòng)態(tài)任務(wù)調(diào)度、高速通信、負(fù)載均衡等。這些事情需要去寫(xiě)算子、寫(xiě)底層的東西,有時(shí)候國(guó)產(chǎn)芯片還沒(méi)有公開(kāi)文檔,所以只有他們自己才能做。
適配DeeepSeek的商家很多獨(dú)創(chuàng)性空間在哪里?
AI實(shí)戰(zhàn)派:第三個(gè)問(wèn)題。既然商家都在適配,那現(xiàn)在的技術(shù)差異性體現(xiàn)在哪,獨(dú)創(chuàng)性的空間在哪兒?
譚中意:好的。目前做適配的主要是芯片廠家,而使用這些適配成果的主要是云服務(wù)廠家。我覺(jué)得基礎(chǔ)差異主要體現(xiàn)在芯片設(shè)計(jì)和網(wǎng)絡(luò)組織條件上。而最大的差異點(diǎn)其實(shí)就是性能和成本。同樣是滿(mǎn)血版的配置,你用什么樣的芯片來(lái)支撐,成本是多少,能提高多大的QPS,延遲又是多少呢?我們可以來(lái)看一個(gè)極致的例子,DeepSeek公司自己在最后一篇論文中提到,他們用H800搭建的集群,服務(wù)ROI達(dá)到了545%,這是將它所有性能極致的地方都加進(jìn)去后的結(jié)果,其實(shí)已經(jīng)做到天花板級(jí)別了。以此為參考,你能做到多少呢?
譚中意:據(jù)傳它是用1000多張H100卡來(lái)支撐同樣的量,你能不能稍微差一點(diǎn),用2000張卡就能扛住同樣的流量,或者用更便宜的卡來(lái)扛更多的流量呢?這其實(shí)就是拼實(shí)力的問(wèn)題。拼實(shí)力就在于你怎么去理解DeepSeek的模型架構(gòu),怎么把性能、存儲(chǔ)和計(jì)算針對(duì)這種場(chǎng)景調(diào)得更好。我覺(jué)得在技術(shù)上,各家有各家的做法,但最終還是要看成本和性能上的PK。
能活下去的廠商,現(xiàn)在看芯片廠家那么多,之前大家都各說(shuō)各的好,說(shuō)各自的算子有什么特點(diǎn),但現(xiàn)在說(shuō)實(shí)話,有了一個(gè)統(tǒng)一的benchmark,DeepSeek服務(wù),那么在這個(gè)服務(wù)上你能做到多少,服務(wù)集成廠家心里就有數(shù)了,能給我什么樣的成本,能跑什么價(jià)格,能跑什么性能。如果跑不起來(lái),那么可能兩年、三年后這個(gè)公司就出局了。
AI實(shí)戰(zhàn)派:性能指標(biāo)方面,大家能形成一定的共識(shí)嗎?
譚中意:我覺(jué)得還是要看大廠的指標(biāo),因?yàn)槟壳昂芏喙_(kāi)測(cè)試的數(shù)據(jù),說(shuō)實(shí)話都是帶有一定水分的。尤其是甲方,就是芯片廠家提供的數(shù)據(jù)。但最嚴(yán)格的測(cè)試一定是大批量采購(gòu)芯片的廠家做的,例如騰訊和字節(jié),因?yàn)檎l(shuí)是騾子誰(shuí)是馬,一遛就清楚了。如果跑不起來(lái),真的就跑不起來(lái)。
黃新平:我從幾個(gè)方面說(shuō)。一方面,適配既體現(xiàn)了技術(shù),也體現(xiàn)了生態(tài),這兩個(gè)都有。在生態(tài)方面,咱們國(guó)產(chǎn)芯片里有一些是擴(kuò)大兼容的。從擴(kuò)大兼容這個(gè)層面來(lái)說(shuō),按照道理,它的適配會(huì)變得容易一些,能跑起來(lái)是沒(méi)問(wèn)題的。而非擴(kuò)大兼容部分,通常你就要去寫(xiě)相應(yīng)的算子。做運(yùn)行時(shí)態(tài)的適配要難得多,這是從功能上適配。從性能上來(lái)說(shuō),我看完DeepSeek第六篇論文之后,我不覺(jué)得現(xiàn)在國(guó)內(nèi)有哪家芯片可以做到這個(gè)水平。
因?yàn)閷?shí)際上,大家可能很少會(huì)直接去看論文。原來(lái)很多的優(yōu)化是我跑一個(gè)模型,用一個(gè)模型來(lái)承接一系列的請(qǐng)求,如果有更多的請(qǐng)求,就跑更多的模型,來(lái)實(shí)現(xiàn)分布式或者并發(fā),也就是擴(kuò)張的做法。但其實(shí)DeepSeek第六篇論文完全不是這樣子的。它是把里面的每一個(gè)小專(zhuān)家拆出來(lái),每一個(gè)計(jì)算單元拆出來(lái),在所有的卡里面均勻分布。它是在上面做這種底層的每一步運(yùn)算的控制,甚至在最底層的attention部分還分成了兩個(gè),所以它已經(jīng)細(xì)致到每一個(gè)層、甚至幾個(gè)算子的調(diào)度都非常精細(xì)。這種精細(xì)來(lái)源于它對(duì)任務(wù)均分的方式,盡可能讓每個(gè)任務(wù)運(yùn)行的時(shí)間都差不多,然后再給任務(wù)切分的時(shí)候盡可能切分得一致,從而充分保證整個(gè)流水線被填滿(mǎn)。這對(duì)計(jì)算能力的評(píng)估、對(duì)計(jì)算通信的時(shí)間評(píng)估、對(duì)時(shí)間掩蓋的控制,以及對(duì)里面很多細(xì)節(jié)部件的控制要求都非常高。而且它是跨節(jié)點(diǎn)的,包括跨節(jié)點(diǎn)之間的大規(guī)模細(xì)粒度控制,對(duì)于通信部分的要求特別高。
首先來(lái)講,咱們國(guó)內(nèi)的芯片到現(xiàn)在為止還沒(méi)有能夠跟NVLink對(duì)標(biāo)的東西。如果沒(méi)有,你就彈性不起來(lái)。在節(jié)點(diǎn)和節(jié)點(diǎn)之間還好,大家都可以用IB,但是你的GPU直接支持又成為另外一個(gè)問(wèn)題。原來(lái)很多是沒(méi)有的,就變成了我在操作系統(tǒng)層面上要做一次轉(zhuǎn)接,那這樣你的可控程度就遠(yuǎn)不行了。所以在這方面,我覺(jué)得在大規(guī)模承接能力上,現(xiàn)在還沒(méi)有做到,還是非常大的一個(gè)挑戰(zhàn)。所以各家所謂的適配,現(xiàn)在還是適配到我單獨(dú)跑一個(gè)模型,把一個(gè)模型都布在里面,至于效率如何,我不知道,反正它能跑就行。我壓榨性能也就壓榨到此為止。在中間其實(shí)有很多部件的浪費(fèi),現(xiàn)在是完全沒(méi)辦法優(yōu)化到那個(gè)層次的。這既耗費(fèi)技術(shù)資源,也耗費(fèi)大家在上面花的時(shí)間和耐心。因?yàn)樵瓉?lái)做這個(gè)圈子里的人才也非常罕見(jiàn),而且非常貴。
AI實(shí)戰(zhàn)派:既然這么難,那我怎么找到真正屬于自己的獨(dú)創(chuàng)空間呢?剛才聊到大家都在一個(gè)性能基礎(chǔ)上跑評(píng)分,跑不贏的可能就被淘汰。他們會(huì)不會(huì)找一些自己差異的地方來(lái)彌補(bǔ)。
黃新平:還是有的。比如原來(lái)大家在硬件互聯(lián)這一塊其實(shí)是比較難的,它其實(shí)不光是硬件,是軟硬件一體的配置。原來(lái)做CPU設(shè)計(jì)或者做處理器設(shè)計(jì)的時(shí)候,它的緩存空間和計(jì)算單元,以及包括通信的配比,都是非常秘密的一件事情?;旧隙际腔藷o(wú)數(shù)代價(jià),才能找到一個(gè)合適的配比,從而做出一個(gè)合適的芯片。這是原來(lái)大家都做不到的,當(dāng)然其實(shí)各家在這個(gè)上面也有各自的側(cè)重。國(guó)產(chǎn)有一些芯片的顯存特別大,做到96G或者更大,有的直接就上高速顯存HBM,這種帶寬比較寬的顯存,這都是它的特色。在這種特色之下,其實(shí)你要花心思把DeepSeek的結(jié)構(gòu)細(xì)拆下來(lái)。你不一定非得像DeepSeek第六篇論文一樣拆成那樣才能做到最好,而是要靠自己去摸索一條獨(dú)有的路,把自己的性能提起來(lái)。也許有一種可能是,我不一定要比老虎跑得快,我只要比你跑得快就行。
國(guó)產(chǎn)廠商的適配DeepSeek:不要只看新聞稿
AI實(shí)戰(zhàn)派:現(xiàn)在我們能發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象:R1適配國(guó)產(chǎn)芯片的速度挺快的,但像其他的推理模型,用國(guó)產(chǎn)芯片就很難做到。原因是是什么?
譚中意:不是R1去適配國(guó)產(chǎn)芯片,而是國(guó)產(chǎn)芯片去適配R1。因?yàn)閲?guó)產(chǎn)芯片在底層做了自己的芯片設(shè)計(jì)、優(yōu)化、驅(qū)動(dòng)和算子,所以它可以根據(jù)DeepSeek開(kāi)源模型所涉及的各種算子來(lái)進(jìn)行調(diào)優(yōu)。而且DeepSeek的模型權(quán)重、推理代碼和模型結(jié)構(gòu)都是開(kāi)源的,所以適配起來(lái)會(huì)比較容易。反過(guò)來(lái),讓DeepSeek的工程師去適配國(guó)內(nèi)各種芯片,這個(gè)活兒沒(méi)法干。假設(shè)我們將阿里通義的模型拿出來(lái),口碑相當(dāng)不錯(cuò),但你要去讓它適配各種CPU/GPU芯片,這成本太高了,不合適。
AI實(shí)戰(zhàn)派:對(duì),我覺(jué)得容易理解一些。因?yàn)榍?wèn)本身也是Transformer架構(gòu),但百度的模型架構(gòu)雖然和它同源,肯定也有一些自己的東西。
譚中意:所以說(shuō)我覺(jué)得這個(gè)事情就在于,如果模型是基于某種架構(gòu),比如Llama架構(gòu),而芯片已經(jīng)支持llama架構(gòu),那么適配起來(lái)會(huì)比較容易。就怕有些算子沒(méi)有覆蓋到,在你的芯片上跑得很差,導(dǎo)致整個(gè)性能很弱。所以我覺(jué)得還是應(yīng)該讓開(kāi)源模型成為設(shè)計(jì)標(biāo)準(zhǔn)和產(chǎn)業(yè)共識(shí),讓其他國(guó)產(chǎn)芯片去適配它,然后在甲方和乙方之間進(jìn)行部署。如果反過(guò)來(lái)讓模型去適配各種芯片,成本太高,不合適。
AI實(shí)戰(zhàn)派:為什么DeepSeek自己不去適配一些芯片,然后形成一個(gè)標(biāo)準(zhǔn)?
黃新平:我覺(jué)得從兩個(gè)層面上來(lái)說(shuō),在過(guò)往的芯片適配上,大部分其實(shí)都是奔著訓(xùn)練場(chǎng)景去的,訓(xùn)練場(chǎng)景的適配要遠(yuǎn)難于推理場(chǎng)景。DeepSeek出來(lái)之后,大家第一時(shí)間適配的是它的推理場(chǎng)景,因?yàn)樵谀侵埃切┬履P偷耐评聿](méi)有什么轟動(dòng)效應(yīng),你做了也就是做了,然后說(shuō)我們適配了拉馬,更多的是在訓(xùn)練場(chǎng)景。推理其實(shí)做得也就這么一說(shuō),形不成效應(yīng)。這是一個(gè)層面,就是訓(xùn)練和推理的難易程度不同。
然后其實(shí)大模型時(shí)代的適配已經(jīng)比以前簡(jiǎn)單太多了,因?yàn)槲易鲞^(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)那一塊的適配,非常難。因?yàn)槟銜?huì)有前處理、后處理,會(huì)有很多非標(biāo)準(zhǔn)算子的東西,還有圖形學(xué)的東西,而國(guó)內(nèi)的芯片都不是像英偉達(dá)GPU那樣既有圖形處理又有AI計(jì)算的算子,你只能靠CPU去算,那很痛苦。而且各自還會(huì)出一些所謂的奇技淫巧,比如我覺(jué)得這個(gè)算子不太好,我自己寫(xiě)一個(gè)算子,把幾個(gè)算子融合起來(lái)改一改,然后再寫(xiě)一個(gè)新算子出來(lái),那就會(huì)導(dǎo)致這個(gè)東西又不行,又得重寫(xiě)。寫(xiě)完了之后,你的精度適配等方面都會(huì)有問(wèn)題。但其實(shí)現(xiàn)在推理已經(jīng)變得更簡(jiǎn)單了,所以這次適配就會(huì)變得比較簡(jiǎn)單。這是另外一個(gè)層面。
我覺(jué)得很多芯片廠商第一時(shí)間說(shuō)他們適配了很多,但其實(shí)大部分都是小模型級(jí)別的適配,并沒(méi)有真正滿(mǎn)血適配。真正滿(mǎn)血適配的還是比較少。你想,顯存都不夠,還有沒(méi)有這個(gè)別的,你當(dāng)時(shí)還沒(méi)有K-Transformer的加持,這個(gè)能力頂多也就是做個(gè)單卡的,做個(gè)14B、7B、14B的,反正能適配。很多芯片廠商只是在新聞稿里說(shuō)他們適配了很多,但你不要看他說(shuō)了什么,要看他沒(méi)說(shuō)什么。他沒(méi)有說(shuō)我適配了多少B的模型,那通常是個(gè)很小的模型。他說(shuō)我適配了滿(mǎn)血版,他沒(méi)有說(shuō)每秒處理多少個(gè)tokens的速度,這個(gè)說(shuō)明他的性能不行。而且那個(gè)水很深,你的上下文開(kāi)多大什么之類(lèi)的,這都會(huì)嚴(yán)重影響性能,他都不會(huì)去說(shuō)。所以剛才譚老師說(shuō)的,你得看大廠內(nèi)部的驗(yàn)收?qǐng)?bào)告,不能看PR報(bào)告。
開(kāi)源免費(fèi)的產(chǎn)品很多,PMF有新解?為價(jià)值而付費(fèi),非為資源付費(fèi)
AI實(shí)戰(zhàn)派:評(píng)論區(qū)有個(gè)問(wèn)題,如何為開(kāi)源模型快速構(gòu)建有生命力的開(kāi)源生態(tài)?
黃新平:這個(gè)問(wèn)題太大了。
譚中意:這個(gè)問(wèn)題就是怎么為開(kāi)源模型設(shè)計(jì)一個(gè)開(kāi)源生態(tài)。但我覺(jué)得開(kāi)源生態(tài)不是設(shè)計(jì)出來(lái)的。像英特爾,甚至像微軟,他們也說(shuō)要設(shè)計(jì)一個(gè)開(kāi)源生態(tài),但做不出來(lái)。開(kāi)源生態(tài)的成功都是趕在一個(gè)比較好的時(shí)間點(diǎn),再加上一個(gè)巧妙的策略設(shè)計(jì),再加上生態(tài)的合作伙伴一起共同努力長(zhǎng)出來(lái)的。所以開(kāi)源生態(tài)我覺(jué)得很難說(shuō),有人問(wèn)華為砸1000個(gè)億能不能砸出來(lái)第二個(gè)DeepSeek,答案是很難。因?yàn)槊恳粋€(gè)成功的開(kāi)源生態(tài)都有它自己的天時(shí)地利人和的背景。我們能做的事情,可能只能是做一些規(guī)劃,然后遵循一些基本實(shí)踐,最后能不能真正做出來(lái),還得看時(shí)機(jī)對(duì)不對(duì)。
AI實(shí)戰(zhàn)派:現(xiàn)在開(kāi)源免費(fèi)的產(chǎn)品已經(jīng)很多了,包括DeepSeek、千問(wèn)。對(duì)于基礎(chǔ)設(shè)施層來(lái)說(shuō),這一類(lèi)產(chǎn)品的PMF跟之前的時(shí)代相比,是不是有新解?
AI實(shí)戰(zhàn)派:首先我們先說(shuō),AI這一類(lèi)產(chǎn)品,PMF是怎樣一個(gè)現(xiàn)狀,有沒(méi)有解。因?yàn)榇蠹叶贾雷鯩aaS的話,基本上像包括云廠商其實(shí)都不掙錢(qián),能保證持平就已經(jīng)很難了。那對(duì)于這一類(lèi)產(chǎn)品來(lái)說(shuō),有沒(méi)有什么好的想法?
黃新平:我覺(jué)得但凡你有很好的想法就可以出去創(chuàng)業(yè)了,這真的是一個(gè)世界性的難題??傮w來(lái)看的話,我覺(jué)得這塊就是,當(dāng)你現(xiàn)在所做的事情還是在用你的資源價(jià)格來(lái)定價(jià),或者利用你的BOM(物料清單)這些東西來(lái)定價(jià)的時(shí)候,你是沒(méi)有什么利潤(rùn)空間的,這個(gè)時(shí)候其實(shí)是找不到所謂的PMF的。當(dāng)你創(chuàng)造的東西是以它創(chuàng)造的價(jià)值來(lái)定價(jià)的時(shí)候,這時(shí)候才真正有。比如AI生成圖片,我文生圖生成了一張圖,可能只需要花上幾分錢(qián)到一毛錢(qián),但是如果你拿了這個(gè)圖去,你是設(shè)計(jì)師去交付了一個(gè)東西,你可能賺到100到200塊錢(qián),那你的定價(jià)一定不是用幾毛錢(qián)來(lái)定價(jià)的,而是用那100到200塊錢(qián)去定價(jià),這時(shí)候你才找到了你的PMF。我覺(jué)得基本想法就是這樣。
AI實(shí)戰(zhàn)派:那么這個(gè)算力應(yīng)該包裝成什么樣的價(jià)值呢?
黃新平:如果真正去做,這真是個(gè)生態(tài)。一定要讓別人在這個(gè)生態(tài)里都賺到錢(qián)。就像我剛才補(bǔ)充的,因?yàn)槲抑霸谟⑻貭栘?fù)責(zé)過(guò)英特爾的軟件生態(tài)。英特爾在生態(tài)層面上其實(shí)是做得非常好的,源于他的江湖地位,他當(dāng)時(shí)CPU的占有率是非常高,99%點(diǎn)幾的市場(chǎng)占有率。所以英特爾當(dāng)時(shí)內(nèi)部有一句話,凡是計(jì)算都是英特爾的。所以他在這個(gè)地位上,就是要推廣,盡可能讓所有東西納入計(jì)算這個(gè)范疇來(lái)。所以英特爾做生態(tài)有一件事情就是讓大家在這個(gè)生態(tài)里都賺到錢(qián)。一個(gè)生態(tài)健康發(fā)展是在各個(gè)層級(jí)上,每個(gè)層級(jí)都能在這個(gè)生態(tài)里生存,甚至生存得很好,這就是一個(gè)良好的、健康的生態(tài)。所以你如果要做,就是要讓別人在里面賺到錢(qián),讓專(zhuān)業(yè)有分工,每個(gè)人做自己層次上的事情,這樣才能形成一個(gè)良好的生態(tài)。當(dāng)最上游接觸到用戶(hù),拿到以用戶(hù)的價(jià)值定價(jià)的物品的時(shí)候,它會(huì)把整個(gè)價(jià)值往下傳導(dǎo),一直傳到Infra這一層上來(lái)。
譚中意:黃老師講得挺好的。人是為價(jià)值而付費(fèi)的,不是為資源付費(fèi)。如果為資源付費(fèi)的話,你的利潤(rùn)空間非常小。
譚中意:目前我覺(jué)得在AI Infra這個(gè)領(lǐng)域還沒(méi)有出現(xiàn)大規(guī)模創(chuàng)業(yè)機(jī)會(huì)就在于沒(méi)有產(chǎn)品化、沒(méi)有標(biāo)準(zhǔn)化。沒(méi)有產(chǎn)品化、沒(méi)有標(biāo)準(zhǔn)化的話,都還是大廠內(nèi)部的特定的一些軟件和系統(tǒng),很難進(jìn)行產(chǎn)品化對(duì)外形成商業(yè)公司。所以我覺(jué)得可能目前還沒(méi)有Ready。
很多做AI Infra的開(kāi)發(fā)人員,現(xiàn)在感覺(jué)還沒(méi)到創(chuàng)業(yè)的時(shí)候,先在大廠里蹲著吧!蹲了兩年,等標(biāo)準(zhǔn)化了、產(chǎn)品化了,那時(shí)候就可以出來(lái)了。我覺(jué)得可以。
AI實(shí)戰(zhàn)派:黃老師怎么看?
黃新平:我們做了先行者,在前頭探探路。
譚中意:這塊的話,首先還得有業(yè)務(wù)場(chǎng)景出來(lái)。當(dāng)年搜廣推能夠持續(xù)優(yōu)化,就在于搜廣推的收入是巨大的。只有這么一個(gè)高價(jià)值的商業(yè)場(chǎng)景,才能支撐起一個(gè)龐大的算法和工程團(tuán)隊(duì)。
AI實(shí)戰(zhàn)派:首先得先讓他看到能賺錢(qián),然后你才能談省成本的事。
黃新平:沒(méi)錯(cuò)。
AI實(shí)戰(zhàn)派:譚老師,所以您認(rèn)為未來(lái)還得等兩年才能出現(xiàn)一個(gè)成型的機(jī)會(huì)。
譚中意:我不是說(shuō)現(xiàn)在不能做,而是說(shuō)大規(guī)模的創(chuàng)業(yè)機(jī)會(huì)出現(xiàn)可能在兩年之后。但先做的人有先發(fā)優(yōu)勢(shì),就在于他對(duì)這個(gè)市場(chǎng)的迭代和認(rèn)知會(huì)更深。當(dāng)機(jī)會(huì)出現(xiàn)的時(shí)候,他有先發(fā)優(yōu)勢(shì)。你知道,就像炒股似的,現(xiàn)在不好,你不能說(shuō)兩年后再進(jìn)場(chǎng)。你現(xiàn)在可以先練一練,先把一些坑給占住。
聯(lián)邦學(xué)習(xí)、中心化訓(xùn)練,路線迥異如何看
AI實(shí)戰(zhàn)派:因?yàn)槭忻嫔霞夹g(shù)路線也挺多的,在開(kāi)播之前也聊了一些像超算、智算等技術(shù)路線。業(yè)內(nèi)有中心化訓(xùn)練、聯(lián)邦學(xué)習(xí)兩種主流方式。那現(xiàn)在兩位老師是如何看待這些路線的?
黃新平:我覺(jué)得從訓(xùn)練技術(shù)這個(gè)層面上來(lái)說(shuō),其實(shí)DeepSeek在這方面給了一個(gè)巨大的變化。這個(gè)變化就在于原來(lái)大家需要堆卡,順勢(shì)堆十萬(wàn)卡、二十萬(wàn)卡,像星際之門(mén)那樣往上堆。它帶來(lái)的一個(gè)問(wèn)題是什么呢?其實(shí)你知道,堆到萬(wàn)卡的時(shí)候就出現(xiàn)了一個(gè)巨大的困難。在英偉達(dá)的方案里,它端到端的那根線,不能超過(guò)50米。也就是說(shuō),你要在一個(gè)50米的范圍內(nèi)放上一萬(wàn)張卡。電力、散熱都會(huì)成為巨大的挑戰(zhàn)。當(dāng)你做不到的時(shí)候,那就意味著你的通信效率會(huì)下降。大家知道,在大規(guī)模并行計(jì)算的時(shí)候,有一條定律叫阿姆達(dá)爾定律,是說(shuō)你的串行部分制約了你的增速比。如果你90%都是串行計(jì)算,只有10%是并行計(jì)算,那你最好的效果就是讓那10%全砍掉,一秒鐘都不要花時(shí)間算完,那你還需要90%的時(shí)間來(lái)算,那你的整個(gè)增速比是非常小的,沒(méi)有什么用,你加了很多臺(tái)機(jī)器,一點(diǎn)用都沒(méi)有。
黃新平:所以要把串行的部分減到越少越好。這就是為什么在各個(gè)大型的訓(xùn)練場(chǎng)景里,一定要優(yōu)化它的通信的原因。那在原來(lái)堆卡的情況下,就意味著你的通信占比要控制得很小,是非常難的事情。因?yàn)槟阆胂?,你每臺(tái)機(jī)器有八塊卡,里面再插 8 個(gè)IB的網(wǎng)卡,然后你幾個(gè)的話就把一個(gè)32口或者64口的IB交換機(jī)就占滿(mǎn)了。然后你當(dāng)有多層要占滿(mǎn),又要分二層、三層,每加一層交換機(jī),你肯定就會(huì)有額外的負(fù)擔(dān),而且點(diǎn)到點(diǎn)之間的連接就不再是一對(duì)一了,就會(huì)有跳距離了。那你在調(diào)度上要考慮這些調(diào)度算法,所以那個(gè)東西其實(shí)越往上,它的工程難度越來(lái)越大。就是這種Scalability(可擴(kuò)展性)其實(shí)是整個(gè)非常難的。然后DeepSeek用了一個(gè)很便宜的價(jià)錢(qián)來(lái)做,是因?yàn)樗前凑誐OE(Mixture of Experts,混合專(zhuān)家模型)每一個(gè)專(zhuān)家去訓(xùn)練的。這樣的話,每個(gè)expert很小,它不需要那么大的東西,也許就像剛才說(shuō)的分布式訓(xùn)練成為了一種可能,不需要一萬(wàn)卡都堆在一個(gè)房間里,然后可以分機(jī)房,可以分得更遠(yuǎn)一點(diǎn),也許成了一種可能。這是從訓(xùn)練層面上的。當(dāng)然,袁老師(硅基流動(dòng)創(chuàng)始人)也說(shuō)了,99.9%的算力都花在推理上。
黃新平:那推理就變成了另外一個(gè)需要去做的事情。原來(lái)大家覺(jué)得推理沒(méi)啥,無(wú)非就是拿一個(gè)模型,跑完了以后再擴(kuò)展一個(gè)模型。但DeepSeek告訴你,我把里面每個(gè)小部件拆出來(lái),統(tǒng)一混在一起進(jìn)行推理,這就給大家這一塊帶來(lái)了無(wú)限的想象力,所以這一塊其實(shí)是一個(gè)很大的變化。從技術(shù)層面上,能看到推出了一些新的東西,在推理路線上,其實(shí)都帶來(lái)了一些新的可能性。
黃新平:其實(shí)不是說(shuō)你想不到那個(gè)東西,而是你要把里面每一個(gè)算子或者幾個(gè)算子組成一個(gè)團(tuán),然后動(dòng)態(tài)地去調(diào)度,那你的調(diào)度的復(fù)雜度,而且你的整個(gè)工具,你要有很多工具,你要知道它到底花了多長(zhǎng)時(shí)間,調(diào)優(yōu)達(dá)到最好的一個(gè)結(jié)果。你往往在做一件事情的時(shí)候,你要具備很多的周邊能力,這些能力其實(shí)構(gòu)建是比較難的。
AI實(shí)戰(zhàn)派:所以,大多數(shù)人基本上堆不動(dòng)卡了。
黃新平:是的,又貴,然后又耗電,然后在中國(guó)還有一點(diǎn),供應(yīng)也有難度。
譚中意:我覺(jué)得這個(gè)問(wèn)題其實(shí)對(duì)于工程師來(lái)說(shuō),更多的是關(guān)于如何學(xué)習(xí)新的技術(shù),才能保證自己不落伍?,F(xiàn)在我覺(jué)得目前AI的Infra領(lǐng)域是百花齊放的。目前能看到的很多相關(guān)的一些項(xiàng)目,都還處于比較早期的階段。我覺(jué)得有幾個(gè)判斷是可以參考下的。第一個(gè)就是看大廠背書(shū),像DeepSeek這種開(kāi)源的大模型所使用的。第二個(gè)看這個(gè)項(xiàng)目的開(kāi)發(fā)者友好程度和迭代速度。一個(gè)開(kāi)源項(xiàng)目,如果它的開(kāi)發(fā)者友好做得很差,很難上手,那肯定用的人少。
第二個(gè),看它的迭代速度。如果迭代慢,那么肯定它也適應(yīng)不了這種AI的快速發(fā)展。所以說(shuō)一般來(lái)說(shuō),在這種快速增長(zhǎng)的領(lǐng)域內(nèi)的開(kāi)源項(xiàng)目,我要去選擇的話,我肯定會(huì)選第一個(gè)是大廠背書(shū)的、有大廠在用的。第二個(gè)就是它自己的社區(qū)真的很活躍,發(fā)版也快,然后上手也快的。我們能看到一些項(xiàng)目,像ollama長(zhǎng)得很快,Dify漲得也很快,第一個(gè)是它們有大廠背書(shū),第二個(gè)是社區(qū)活躍,迭代速度快,上手容易。
黃新平:我再補(bǔ)充一點(diǎn)。我認(rèn)為如果從從業(yè)者的角度來(lái)看,應(yīng)該以不變應(yīng)萬(wàn)變。一定要把基礎(chǔ)打扎實(shí)。其實(shí)在分布式計(jì)算、性能優(yōu)化等領(lǐng)域,我做了這么多年,可以毫不客氣地說(shuō),編譯器20年來(lái)沒(méi)有什么新理論,唯一的新理論就是SSA(靜態(tài)單賦值),除此之外沒(méi)有什么特別新的理論。所以很多理論都是已經(jīng)非常成熟的了。當(dāng)你沒(méi)有基礎(chǔ)能力的時(shí)候,你看不透這些東西,會(huì)覺(jué)得什么都新鮮;但當(dāng)你有了扎實(shí)的基礎(chǔ),你會(huì)發(fā)現(xiàn)萬(wàn)變不離其宗,那些優(yōu)化手段、那些基本的東西在起作用。所以一定要打好自己的技術(shù)基礎(chǔ),積累好自己的技術(shù)功底和工具。
三年內(nèi)不會(huì)有有革命性的東西,但新范式有望產(chǎn)生
AI實(shí)戰(zhàn)派:接下來(lái)就是我們要討論的未來(lái)3年、5年、10年的一個(gè)設(shè)想或展望。
黃新平:我覺(jué)得譚老師比我更有發(fā)言權(quán),我對(duì)未來(lái)沒(méi)什么特別的想象力。
譚中意:首先我覺(jué)得 AI Infra 說(shuō)到底還是為 AI 業(yè)務(wù)服務(wù)的。我們可以做個(gè)簡(jiǎn)單判斷,AI 的大模型業(yè)務(wù)在未來(lái)3年、5年內(nèi)能發(fā)展到什么程度。我覺(jué)得未來(lái)3年內(nèi),它做的事情還是現(xiàn)有模型能力的進(jìn)一步提升,以及現(xiàn)有模型的推理進(jìn)入到各個(gè)企業(yè)的具體環(huán)節(jié),比如怎么更高速地訓(xùn)練,怎么以更低的成本、更大容量地進(jìn)行推理。我覺(jué)得未來(lái)3年可能不會(huì)出現(xiàn)更革命性的東西,像數(shù)據(jù)飛輪和實(shí)時(shí)性,我覺(jué)得在未來(lái)3年還很難達(dá)到。所以我覺(jué)得未來(lái)3年左右要做的事情,可能還是如何更好地利用芯片,如何更好地進(jìn)行大規(guī)模訓(xùn)練和存儲(chǔ),把成本降得更低。
黃新平:因?yàn)槲铱催^(guò)一些半導(dǎo)體相關(guān)的技術(shù),包括那些超出現(xiàn)在范疇的技術(shù)。通常來(lái)看,其實(shí)都還在3到5年內(nèi)很難落地。比如存內(nèi)計(jì)算、基于量子的計(jì)算方式等,都非常難,很難成為主流。我覺(jué)得剛才一再?gòu)?qiáng)調(diào)通信的重要性,也許在未來(lái),通信架構(gòu)方面,包括像內(nèi)存池這樣的技術(shù),比如CXL Memory(假設(shè)為某種技術(shù))等,也許會(huì)出現(xiàn)新的計(jì)算范式,這是可能實(shí)現(xiàn)的。它不是一個(gè)革命性的,更多是演進(jìn)性質(zhì)的技術(shù)。未來(lái)也許會(huì)變成這樣一個(gè)場(chǎng)景:通過(guò)自動(dòng)化調(diào)度、自動(dòng)化負(fù)載均衡,以及更好的負(fù)載均衡算法,不再需要切分計(jì)算長(zhǎng)度大小,而是通過(guò)任務(wù)動(dòng)態(tài)調(diào)度的方式,也許能做到這一點(diǎn)。總體來(lái)看,還是朝著譚老師說(shuō)的方向發(fā)展,即性能要上去,成本要下來(lái)。
AI實(shí)戰(zhàn)派:做基礎(chǔ)架構(gòu),必須有前瞻性地看接下來(lái)的3年。那么AI Infra接下來(lái)的演變速度會(huì)不會(huì)比之前的Infra更快一些?
黃新平:如果我們關(guān)注性能或者從這個(gè)角度來(lái)看的話,其實(shí)半導(dǎo)體這塊基本上我個(gè)人認(rèn)為是快要走到頭了。因?yàn)楝F(xiàn)在都是四納米,而整個(gè)性能提升,從理論上來(lái)說(shuō)有兩個(gè)部分構(gòu)成:一個(gè)是半導(dǎo)體的制程,另一個(gè)是半導(dǎo)體設(shè)計(jì)的微體系架構(gòu)??傮w來(lái)看的話,就像英偉達(dá)的B200這樣一個(gè)層面,它已經(jīng)做到了單個(gè)芯片能做到的最大面積,已經(jīng)無(wú)法再擴(kuò)展。后面有一些美國(guó)在單晶元上做整個(gè)大芯片,把功能都變成片內(nèi)互聯(lián),這種方式其實(shí)也是出于從另外一層面上扶正。從半導(dǎo)體層面上,性能提升已經(jīng)到頭了。另外一部分就是互聯(lián)部分,國(guó)內(nèi)外差距尤其大。國(guó)內(nèi)像剛才說(shuō)的,NvLink沒(méi)有,IB也沒(méi)有,而英偉達(dá)其實(shí)已經(jīng)不滿(mǎn)足于現(xiàn)狀,開(kāi)始對(duì)硅光互聯(lián)進(jìn)行研究,還有谷歌奔著800G、1.6T這樣的互聯(lián)速度去。所以這一塊的話,我覺(jué)得還是有很大的空間可以做,所以我覺(jué)得互聯(lián)這個(gè)層面上可能會(huì)進(jìn)步更快一些?;ヂ?lián)更快,意味著在一個(gè)相對(duì)比較大一點(diǎn)的分布式計(jì)算系統(tǒng)上面,性能是能上去的。包括像英偉達(dá)現(xiàn)在nv72那種,整個(gè)在做大機(jī),你可以看到它在做大機(jī),歷史是循環(huán)的,從大機(jī)拆成小機(jī),現(xiàn)在又用小機(jī)聚合成大機(jī)。
黃新平:我覺(jué)得未來(lái)在訓(xùn)練層面上,AI Infra 是朝著大機(jī)方向去的,而在推理層面上可能會(huì)變成更多的異構(gòu)計(jì)算。因?yàn)楝F(xiàn)在雖然說(shuō)是異構(gòu)計(jì)算,都是GPU計(jì)算這種方式,但實(shí)際上很多業(yè)務(wù)是需要既有CPU計(jì)算能力,又有GPU計(jì)算能力,兩者結(jié)合在一起才能完整完成。比如我現(xiàn)在都是純GPU計(jì)算,也許我需要數(shù)據(jù)庫(kù)計(jì)算,需要SQL語(yǔ)句,需要其他一些傳統(tǒng)的CPU計(jì)算的部分,那這個(gè)還是需要的。我覺(jué)得這是我暢想的未來(lái),可能這方面會(huì)有更多的融合。我覺(jué)得都是漸進(jìn)性的,還算不上革命性的東西。有需求就會(huì)有人去做。
嘉賓介紹:
【黃新平】北京算力自由科技有限公司董事長(zhǎng),從半導(dǎo)體時(shí)代的編譯器專(zhuān)家,到AI時(shí)代的算力架構(gòu)師, 從摩托羅拉、英特爾時(shí)代的編譯器開(kāi)發(fā)與芯片指令集驗(yàn)證, 到Solaris內(nèi)核優(yōu)化并推動(dòng)AVX指令集落地;從構(gòu)建愛(ài)奇藝支撐億級(jí)流量的深度學(xué)習(xí)平臺(tái),到實(shí)現(xiàn)BERT模型33倍性能躍升的TVM編譯器深度改造,始終以底層技術(shù)突破驅(qū)動(dòng)行業(yè)進(jìn)化。尤其在AI工程化領(lǐng)域,有著深厚的積累。
【譚中意】 中國(guó)開(kāi)源推進(jìn)聯(lián)盟常務(wù)副秘書(shū)長(zhǎng),參與創(chuàng)建中國(guó)互聯(lián)網(wǎng)第一個(gè)基礎(chǔ)架構(gòu)部,并在國(guó)內(nèi)推廣Data Centric AI,在Sun、百度、騰訊、第四范式工作過(guò)多年,對(duì)AI Infra比較有經(jīng)驗(yàn)。