院士老黃獲港科大榮譽(yù)博士!再論「黃氏定律」,預(yù)言只有3種機(jī)器人能成功
11月23日,在香港科技大學(xué)舉行的博士學(xué)位授予儀式上,不僅梁朝偉被授予人文學(xué)榮譽(yù)博士學(xué)位,作為英偉達(dá)創(chuàng)始人兼CEO的老黃也被授予工程學(xué)榮譽(yù)博士學(xué)位。
授予儀式結(jié)束后,老黃與HKUST校董會(huì)主席沈向洋進(jìn)行了一場長達(dá)1小時(shí)的爐邊對談。
沈向洋坦言,今天活動(dòng)之前自己輾轉(zhuǎn)反側(cè),因?yàn)榇蠹腋嬖V他最近蘋果股價(jià)漲勢迅猛,英偉達(dá)的情況反而有點(diǎn)不妙。但是還好,對談當(dāng)天時(shí)英偉達(dá)仍是市值第一的公司。
然而根據(jù)最新的數(shù)據(jù),市值第一的寶座又一次易主,英偉達(dá)目前低于蘋果屈居第二。
作為新晉校友,老黃對自己的新母校和新校董也不吝溢美之詞,不僅對談中將香港科技大學(xué)比作「亞洲的MIT」,還稱贊沈向洋是「我們這個(gè)時(shí)代最偉大的計(jì)算機(jī)科學(xué)家之一」,而且很長時(shí)間以來都是自己和很多其他人心目中的英雄。
一小時(shí)的對談中全程高能,善于提問的沈向洋和善用比喻的老黃經(jīng)常引發(fā)觀眾們的掌聲爆笑,最后的抽獎(jiǎng)環(huán)節(jié)更是直接豪橫送出10張英偉達(dá)RTX 4060ti顯卡,點(diǎn)燃全場。
不同于以往在會(huì)議論壇中的對談,回到「母?!沟睦宵S非常放松,不僅分享了自己對AI產(chǎn)業(yè)和團(tuán)隊(duì)管理的見解,更是罕見地透露了很多個(gè)人八卦。
這個(gè)時(shí)代,AI究竟意味著什么
如今,AI已經(jīng)有能力理解語言、圖像、蛋白質(zhì)序列等各種數(shù)據(jù)時(shí),GenAI能夠?qū)⒁环N信息模式轉(zhuǎn)換為另一種信息模式,比如文本到圖像、文本到蛋白質(zhì)、文本到化學(xué)物質(zhì)等等,因此獲得了變革性、開創(chuàng)性的能力。
最初,AI僅僅是通用的函數(shù)逼近器,現(xiàn)在則演變?yōu)橥ㄓ玫恼Z言翻譯器,可以理解各種信息的含義。那么問題是,我們可以用它做什么?
從計(jì)算機(jī)科學(xué)的角度看,開發(fā)軟件的方式已經(jīng)發(fā)生了根本性的變化,不再依賴于傳統(tǒng)的代碼編寫方式,而是轉(zhuǎn)向了機(jī)器學(xué)習(xí)和自動(dòng)生成。
這不再是簡單的軟件問題,我們是重新發(fā)明了整個(gè)技術(shù)堆棧。計(jì)算機(jī)可以自動(dòng)生成神經(jīng)網(wǎng)絡(luò),并在GPU上進(jìn)行處理。從編碼到機(jī)器學(xué)習(xí),從CPU到GPU,標(biāo)志著一個(gè)全新的時(shí)代的到來。
由于GPU能力強(qiáng)大得多,所以我們可以開發(fā)出和以前完全不同的軟件,在這些軟件之上就是人工智能。那么,什么是AI?當(dāng)我們在競相發(fā)現(xiàn)新的AI時(shí),這個(gè)行業(yè)之后會(huì)發(fā)生什么?
AI做的事情之一是「認(rèn)知自動(dòng)化」,或者說解決問題的自動(dòng)化。
解決問題的過程可以被歸結(jié)為三個(gè)步驟:感知、推理和規(guī)劃。比如,自動(dòng)駕駛需要汽車感知周圍環(huán)境,然后推理自己和其它汽車的位置,再規(guī)劃駕駛過程。
實(shí)際上,不僅是自動(dòng)駕駛,任何事情都可以有相應(yīng)的表達(dá)式,然后交給AI來執(zhí)行。
300年前,通用電氣和西屋公司發(fā)明了一種新設(shè)備,最終改進(jìn)為交流發(fā)電機(jī),搭配上后來發(fā)明的燈泡、烤面包機(jī)的等用電設(shè)備,從而創(chuàng)造了一整個(gè)用電生態(tài)系統(tǒng)。
人工智能的情況也很類似,我們?nèi)缃裾趧?chuàng)造一個(gè)「數(shù)字智能」的生態(tài)系統(tǒng)。Copilot和ChatGPT等應(yīng)用就像是各種電器,而發(fā)電機(jī)對應(yīng)的是數(shù)字智能工廠(digital intelligence factory)。
從工業(yè)的角度來看,我們正在創(chuàng)造一個(gè)全新的、從未存在過的產(chǎn)業(yè),這個(gè)產(chǎn)業(yè)以能源為輸入并產(chǎn)生數(shù)字智能,未來將會(huì)實(shí)現(xiàn)龐大的消費(fèi)量。
AI4Science前景廣闊
近兩年,越來越多的人提到AI4Science,不僅英偉達(dá)在發(fā)布會(huì)上多次展示與氣象科學(xué)、生物學(xué)交叉的成果,老黃本人也經(jīng)常談起AI和生物的結(jié)合。
對談中,老黃回憶起自己在2018年的世界科學(xué)計(jì)算會(huì)議上介紹了人工智能,但當(dāng)時(shí)由于AI的「黑箱」屬性飽受質(zhì)疑。但今天的人工智能,已經(jīng)不那么像黑箱了。
原因在于,你可以「邀請」當(dāng)下的LLM一起進(jìn)行推理,讓它輸出得到答案的每個(gè)步驟,這就是一種「探查」,讓我們理解AI的思維過程。(老黃的描述,或許就類似于我們常說的CoT「思維鏈」)
雖說「黑箱」的屬性減弱了,但人工智能依舊是「黑箱」,因?yàn)樗€無法從第一性原理中產(chǎn)生答案的能力,而是通過觀察數(shù)據(jù)、學(xué)習(xí)規(guī)律來產(chǎn)生答案。因此,它并不是在模擬第一性原理求解器,而是在模擬智能、模擬物理。
那么關(guān)鍵的問題是:模擬對科學(xué)有價(jià)值嗎。我的答案是,模擬對科學(xué)而言是無價(jià)的。
在許多科學(xué)領(lǐng)域,我們已經(jīng)理解并掌握了第一性原理,比如薛定諤方程、麥克斯韋方程等,但無法在龐大的系統(tǒng)中模擬這些方程。所以,與其從第一性原理出發(fā)去解決這些計(jì)算上受限的問題,不如讓人工智能模擬。
我們可以訓(xùn)練理解物理的人工智能,用它來模擬非常大的系統(tǒng),以便理解大系統(tǒng)和大尺度。
再比如,生物學(xué)有一個(gè)從納米開始的尺度,從納秒到年,用第一性原理求解器去求解這樣的系統(tǒng)幾乎是不可能的。那我們能否使用AI來模擬人類生物學(xué),以便更好地理解這些非常復(fù)雜的多尺度系統(tǒng),甚至創(chuàng)建一個(gè)人類生物學(xué)的數(shù)字孿生。
這是一個(gè)偉大的希望,如果能夠?qū)崿F(xiàn),生物學(xué)家、氣候科學(xué)家將第一次真正理解自己所研究的大尺度物理系統(tǒng)。
「實(shí)體智能」和大灣區(qū)的未來
沈向洋提到,大灣區(qū)近年來已經(jīng)發(fā)展出龐大的硬件生態(tài)系統(tǒng)。比如,大疆公司就是憑借無人機(jī)技術(shù)從這里起步,成為全球領(lǐng)先的企業(yè)。
對于硬件生態(tài)和「實(shí)體智能」這個(gè)領(lǐng)域,以及「大灣區(qū)」這個(gè)獨(dú)特的地理位置,老黃有怎樣的看法?
他表示,大灣區(qū)對于中國乃至世界來說都是一個(gè)絕佳的機(jī)會(huì),因?yàn)檫@個(gè)區(qū)域在機(jī)電一體化(mechatronics)方面非常成熟,這是機(jī)械與電子技術(shù)的交匯點(diǎn)。
大灣區(qū)是世界上唯一一個(gè)機(jī)電技術(shù)和AI同時(shí)蓬勃發(fā)展的地區(qū)。其他兩個(gè)主要的機(jī)電技術(shù)產(chǎn)業(yè)中心 —— 日本和德國,在人工智能領(lǐng)域落后了不少,而大灣區(qū)不存在這個(gè)問題。正如沈向洋形容的,這是一個(gè)「以迭代軟件的速度來迭代硬件的地方」。
老黃認(rèn)為,這是一個(gè)非常獨(dú)特的機(jī)會(huì),而且強(qiáng)烈建議大家抓住這個(gè)機(jī)會(huì)并充分利用它。
機(jī)器人技術(shù)的關(guān)鍵就在于加入一個(gè)能理解物理世界的AI。目前如ChatGPT之類的大語言模型擅長處理知識和認(rèn)知智能,但并不理解物理智能(physical intelligence)。比如把一個(gè)杯子放到桌子上,AI無法理解杯子不會(huì)穿過桌子這一事實(shí)。
但其實(shí)這個(gè)領(lǐng)域已經(jīng)取得了很大的進(jìn)展,也就是我們看到的文生視頻模型。如果輸入文字指令「Jensen拿起咖啡杯喝一口」,AI就能生成相應(yīng)的視頻,那么同樣也可以生成指令來控制機(jī)械臂完成相同的動(dòng)作。因此,從GenAI到通用機(jī)器人,這一步已經(jīng)非常接近了。
而且,規(guī)模化量產(chǎn)非常重要,因?yàn)橹挥写笠?guī)模生產(chǎn)才能形成技術(shù)飛輪(flywheel),攤平高額的研發(fā)投入,從而帶來更大的技術(shù)突破,進(jìn)一步擴(kuò)大生產(chǎn)規(guī)模。這個(gè)研發(fā)飛輪對任何行業(yè)都是至關(guān)重要的。
我們現(xiàn)在有三種類型的機(jī)器人可以實(shí)現(xiàn)大規(guī)模生產(chǎn),而且只有這三種,其中兩種的產(chǎn)量會(huì)是最高的。其他類型的機(jī)器人都很難實(shí)現(xiàn)規(guī)?;a(chǎn)。
這三類機(jī)器人分別是:汽車,因?yàn)檫^去150年的世界是為汽車設(shè)計(jì)的;無人機(jī),因?yàn)樘炜諑缀鯖]有限制;以及體量最大的,人形機(jī)器人,因?yàn)槲覀兊氖澜缡菫槿祟愒O(shè)計(jì)的。
這三類機(jī)器人很容易實(shí)現(xiàn)「棕地部署」(brownfield deployment),即在現(xiàn)有的環(huán)境設(shè)施基礎(chǔ)上進(jìn)行應(yīng)用,而不需要從頭開始創(chuàng)建全新的環(huán)境。這三種類型可以將機(jī)器人擴(kuò)展到極大的體量,這是像大灣區(qū)這樣的制造業(yè)生態(tài)系統(tǒng)真正擁有的優(yōu)勢之一。
再論「黃氏定律」
2020年,華爾街日報(bào)發(fā)文,稱摩爾定律正逐漸失效,而「黃氏定律」(Huang's Law)或?qū)⑷〈柖傻奈恢茫髟孜磥淼幕ヂ?lián)網(wǎng)創(chuàng)新發(fā)展。
去年,黃仁勛在CES 2019展會(huì)上表示,「摩爾定律過去是每5年增長10倍,每10年增長100倍。而如今,摩爾定律每年只能增長幾個(gè)百分點(diǎn),每10年可能只有2倍。因此,摩爾定律結(jié)束了?!?/span>
4年前的Huang's Law是這樣預(yù)言的:由于硬件和軟件的升級,人工智能芯片的性能每兩年的可提高一倍多。
而如今站在2024年回看過去的10到12年,從消費(fèi)的角度出發(fā)并算上所有的大語言模型,每年的計(jì)算需求實(shí)際上遠(yuǎn)遠(yuǎn)不止翻了一番,而是是增長了四倍。如果每年增長四倍,那么在十年的時(shí)間里,這個(gè)數(shù)字將變成驚人的一百萬倍。
摩爾定律失效了,「黃氏定律」會(huì)持續(xù)有效嗎?沈向洋將這個(gè)難以回答的問題拋給了老黃本人。
首先,老黃分析了一下摩爾定律起作用的原因,它依賴于兩個(gè)概念:一是VSI縮放(大規(guī)模集成電路縮放),這得益于Carver Mead和Lynn Conway的研究;另一個(gè)是Dennard縮放(恒定電流密度縮放)。這些技術(shù)的結(jié)合讓我們每隔幾年就能將半導(dǎo)體的性能翻倍。
目前為人熟知的一種經(jīng)驗(yàn)法則「Scaling Law」告訴我們,神經(jīng)網(wǎng)絡(luò)的規(guī)模越大,訓(xùn)練數(shù)據(jù)越多,AI的性能似乎就越強(qiáng)大,而 Scaling Law 似乎仍在持續(xù)發(fā)揮作用。
然而,僅指望收集到所用的數(shù)據(jù)然后通過預(yù)訓(xùn)練從中自動(dòng)發(fā)現(xiàn)知識是不夠的。我們還需要后訓(xùn)練,也就是深入一個(gè)領(lǐng)域,理解其中的某些內(nèi)容,并學(xué)習(xí)特定技能的過程,涉及到強(qiáng)化學(xué)習(xí)、人類反饋、人工智能反饋、合成數(shù)據(jù)生成、多路徑學(xué)習(xí)等多種技術(shù)。
這就好比上大學(xué),完成學(xué)業(yè)、拿到學(xué)位是一個(gè)重要的里程碑,但這還遠(yuǎn)遠(yuǎn)不夠。一旦你選擇了一份職業(yè),就還需要再次進(jìn)行大量的學(xué)習(xí)。
然后,在后訓(xùn)練階段,就到了我們所說的「思考」,這可以被稱為test-time scaling。這個(gè)階段的一些問題需要將其分解,逐步追溯到第一性原理,然后再從原點(diǎn)出發(fā),為每個(gè)問題找到解決方案。
因?yàn)榇鸢甘遣豢深A(yù)測的,這可能需要你進(jìn)行迭代和分情況討論,模擬不同的結(jié)果,這就是我們所說的「思考」,而且往往思考時(shí)間越長,答案的質(zhì)量可能就越高。
現(xiàn)在AI已經(jīng)能提供能力范圍內(nèi)最好的答案,但我們還需要知道是否有幻覺、答案是否合理,以及我們多大程度上能信任這個(gè)答案。我認(rèn)為我們距離這一目標(biāo)還有幾年的時(shí)間,在此之前依舊不得不持續(xù)投入。
GPU:算力太少怎么解
過去的10年中,Huang's Law不僅意味著計(jì)算能力的增長,也是計(jì)算成本上百萬倍的降低。
想象一下,在這個(gè)世界上,任何你依賴的東西,無論是電力、機(jī)票,還是其他任何東西,如果成本降低了上百萬倍,就會(huì)讓你的行為習(xí)慣會(huì)發(fā)生根本性的改變。
最明顯的是,計(jì)算能力的提高帶來了機(jī)器學(xué)習(xí)蓬勃發(fā)展,研究員們可以毫不猶豫地使用機(jī)器學(xué)習(xí)方法分析處理數(shù)據(jù)。
但不可否認(rèn)的是,GPU算力少,依舊困擾著高校中的研究人員。今年5月的一次采訪中,李飛飛曾直言,「美國的公立機(jī)構(gòu)和學(xué)術(shù)界正在AI資源方面跌落懸崖」,斯坦福的NLP實(shí)驗(yàn)室也僅有64塊GPU可用。
對談中,沈向洋也表達(dá)了類似的觀點(diǎn):在深度學(xué)習(xí)領(lǐng)域,即使是美國的頂尖大學(xué)也沒有做出貢獻(xiàn)。過去十年的大多數(shù)開創(chuàng)性論文都來自英偉達(dá)、微軟、OpenAI、谷歌等頂尖的科技公司。他們完成了令人驚嘆的工作,部分原因其實(shí)是擁有足夠的算力。
對此,老黃的角度相當(dāng)新穎:這個(gè)問題的核心是大學(xué)中一個(gè)非常嚴(yán)肅的結(jié)構(gòu)性問題。
算力是重要的。沒有機(jī)器,就不可能有機(jī)器學(xué)習(xí)。科研需要儀器,而超算就是當(dāng)今人工智能領(lǐng)域的科學(xué)儀器。
大學(xué)的結(jié)構(gòu)性問題在于,每個(gè)研究人員只負(fù)責(zé)籌集自己的經(jīng)費(fèi)和資金,不與他人共享,這不符合機(jī)器學(xué)習(xí)的工作方式。
機(jī)器學(xué)習(xí)的工作方式是,每個(gè)人只需要機(jī)器的一部分時(shí)間,但需要的是全部機(jī)器一起運(yùn)行。沒有人永遠(yuǎn)需要機(jī)器的全部,只是在一小段時(shí)間內(nèi)需要巨大的資源。
大學(xué)要想推進(jìn)研究,就必須發(fā)揮領(lǐng)導(dǎo)作用,把所有人的資金都集中起來,提供全校都可以訪問的基礎(chǔ)設(shè)施,但這在斯坦?;蚬疬@樣的大學(xué)是非常困難的。
這也能解釋為什么很多研究人員來英偉達(dá)、谷歌和微軟這樣的公司實(shí)習(xí)、做研究,因?yàn)橛谢A(chǔ)設(shè)施。據(jù)我所知,很多教授一邊教學(xué),一邊在大公司擔(dān)任兼職研究。解決方法有很多,當(dāng)然,最好的辦法是大學(xué)重新考慮如何提供資金。
GPU:耗能太多怎么破
圍繞著GPU,沈向洋再拋出了一個(gè)尖銳的話題:GPU大量使用帶來的能源消耗問題,應(yīng)該怎么破?
根據(jù)預(yù)測,到2030年,全球能耗將增加30%,而其中很大一部分可能都要?dú)w因于為AI提供動(dòng)力的GPU計(jì)算。
老黃表示:請?jiān)试S我用倒推的方式回答這個(gè)問題。先上結(jié)論:如果全球能源被更多地被用于支持AI,那么這個(gè)世界會(huì)變得更美好。
首先,AI的目標(biāo)不是訓(xùn)練模型,而是使用模型進(jìn)行推理,而推理的價(jià)值是令人難以置信的。它可能發(fā)現(xiàn)儲存二氧化碳的新方法,也許能設(shè)計(jì)更高效的風(fēng)力渦輪機(jī),或者優(yōu)化太陽能電池板、開發(fā)新的儲能材料,等等。這些都是我們想通過AI實(shí)現(xiàn)的終極目標(biāo)。
其次,在哪里訓(xùn)練AI是無關(guān)緊要的。我們不需要把超算放在大學(xué)校園中,而是可以放在更靠近電網(wǎng),甚至遠(yuǎn)離人口密集區(qū)的地方。
最后,我們應(yīng)該在許多不同的領(lǐng)域利用AI來節(jié)約能源,減少資源浪費(fèi),這樣最終達(dá)到節(jié)能20%~30%的目標(biāo)。用于「智能」(intelligence)是我們所能想象到的對能源的最佳利用。
公開英偉達(dá)獨(dú)特管理經(jīng)
開啟這個(gè)話題前,沈向洋提到,老黃掌舵英偉達(dá)接近32年,是當(dāng)今硅谷在任時(shí)間最長的CEO,甚至可能不是當(dāng)今而是有史以來。
那么,在神人輩出的硅谷,老黃為何能成功創(chuàng)辦英偉達(dá),并實(shí)現(xiàn)了今日的輝煌?
在管理風(fēng)格方面,老黃自成一家。在英偉達(dá),任何人發(fā)現(xiàn)有5件可以改進(jìn)的事情都可以直接給老黃發(fā)郵件,有60個(gè)總監(jiān)(director)向他直接匯報(bào),每次開會(huì)也是這60個(gè)人全部參與、「濟(jì)濟(jì)一堂」。
這樣做的原因只有一點(diǎn):透明度。給所有人同步所有事情,在所有人面前討論公司的戰(zhàn)略和決定,這樣就不止是他一個(gè)人去森林探險(xiǎn)一樣找到發(fā)展方向再布置任務(wù),而是讓每個(gè)人都知道并參與到推理答案的過程中。
除了管理上的方法論,老黃分享更多的是自己的心得和精神體會(huì)。
首先,不要把你的工作僅僅當(dāng)成一份「工作」,而是要看成一生的事業(yè)。去做任何你愿意為之奉獻(xiàn)一生的事情,把職業(yè)看作是自己終生要追求完美的技藝,這種心態(tài)的差別會(huì)極大地影響投入感和你的思維方式。
對老黃而言,領(lǐng)導(dǎo)英偉達(dá)就不是一份普通的工作而是他的人生事業(yè)。
第二,要盡可能多地學(xué)習(xí),尤其是作為CEO,需要不斷學(xué)習(xí)和重塑自己,因?yàn)槭澜缭诓粩嘧兓?,公司在變化,技術(shù)也在變化。今天掌握的知識可能在未來派上用場,但永遠(yuǎn)不會(huì)足夠。
老黃表示,自己每天都在學(xué)習(xí),來的路上還在看YouTube視頻,還訓(xùn)練(甚至是折磨)AI模型讓它當(dāng)教練幫助自己學(xué)習(xí)。
但是,學(xué)習(xí)也是有個(gè)度的。作為領(lǐng)導(dǎo)者的CEO,你必須對自己想要做的事情充滿信心,但你不必知道一切,也不必完全確定。信心和確定性不是一回事,你有可能非常自信地追求一個(gè)方向,同時(shí)又給不確定性留出空間。
這種不確定性的空間能給你提供繼續(xù)學(xué)習(xí)的機(jī)會(huì),不確定性是朋友而非敵人。
以及,作為領(lǐng)導(dǎo)者需要強(qiáng)大(strong),因?yàn)楹芏嗳艘揽磕愕牧α可?。但?qiáng)大并不意味著不能脆弱。也就是說,如果你需要幫助,就尋求幫助。
總而言之,脆弱不等于缺乏力量,不確定不等于缺乏信心。
最后,貢獻(xiàn)一則老黃追妻的八卦小故事:
我16歲上大學(xué),17歲時(shí)遇見我老婆,當(dāng)時(shí)她19歲。我們班250名同學(xué),只有3個(gè)女生,而且我最小,只有我看起來像個(gè)小孩,所以搭訕技巧非常重要。
所以我的策略是:要讓她對我的第一印象是「非常聰明」,所以走到她面前說:「你想看看我的作業(yè)嗎?」
然后我向她保證,我說如果你每個(gè)星期天和我一起做作業(yè),我保證你會(huì)得到全A。結(jié)果就是,我每個(gè)星期天都能跟她約會(huì),然后我就讓她一整天都在做作業(yè),這樣就能約會(huì)一整天了。
我老婆從來沒看到過我寫作業(yè)的過程,因?yàn)槲蚁胝宫F(xiàn)出自己很聰明,所以總是在她來之前就把作業(yè)寫完了,這樣在她面前我就是知道所有答案的樣子。她可能整個(gè)四年都在想,「Jenson真是個(gè)天才」。
而且為了確保她能和我結(jié)婚,我就說:「到30歲的時(shí)候,我一定能當(dāng)上CEO。」但老實(shí)說,當(dāng)時(shí)我完全不知道自己在說什么,然后我們結(jié)婚了。以上,就是我給企業(yè)家們的建議。