離開(kāi)谷歌這樣的大廠,他們是這樣尋找下家的
?今年上半年,中美互聯(lián)網(wǎng)、科技公司都迎來(lái)了不同程度的裁員和縮招。但與此同時(shí),也有不少人選擇了在這個(gè)時(shí)期跳槽,而且是從令人羨慕的「大廠」跳到他們感興趣的創(chuàng)業(yè)公司。下圖是 Mila 研究者 Ethan Caballero 整理的一份「最近離開(kāi)谷歌的 AI 研究者」 的名單:
名單地址:https://docs.google.com/spreadsheets/d/14M-K2JHTOqWVsV4x95psAb94CblRIrhBimk8HVgwmRY/edit#gid=0
這份名單包含很多我們熟悉的研究者,比如 Transformer 重要作者 Ashish Vaswani 和 Niki Parmar,他們和同樣在名單中的 Anmol Gulati、Augustus Odena 等人一起創(chuàng)立了一家名為 Adept 的新公司,致力于讓人和計(jì)算機(jī)以創(chuàng)造性的方式一起工作,從而實(shí)現(xiàn)通用智能。
當(dāng)然,并不是所有人都會(huì)在離開(kāi)谷歌之后創(chuàng)立自己的公司,比如谷歌機(jī)器人高級(jí)研究科學(xué)家 Eric Jang。他在今年三月末從谷歌離職(待了 6 年),4 月 25 日宣布加入挪威機(jī)器人公司「Halodi Robotics」,擔(dān)任 AI 副總裁一職。
對(duì)于這一選擇,不少人可能會(huì)問(wèn),為什么要選擇這樣一家公司?這些大廠研究人員在跳槽時(shí)都考慮哪些因素?在前段時(shí)間發(fā)布的一份博客(All Roads Lead to Rome: The Machine Learning Job Market in 2022)中,Eric Jang 詳細(xì)介紹了他的決策過(guò)程以及他對(duì)美國(guó)當(dāng)前機(jī)器學(xué)習(xí)就業(yè)市場(chǎng)的了解和對(duì) AGI(通用人工智能)實(shí)現(xiàn)路線的看法。
以下是博客原文:
選擇下家公司時(shí)考慮的因素
就我本人來(lái)說(shuō),下一份工作的唯一限制因素是我想繼續(xù)運(yùn)用自己的機(jī)器學(xué)習(xí)技能。下表列出了我考慮過(guò)的各個(gè)選項(xiàng)。我和這些公司的董事和創(chuàng)始人都談過(guò),但大多都沒(méi)走到接受 HR 正式面試的程度。注意,這些選項(xiàng)的利弊只是我基于 2022 年 4 月的觀察所列出的主觀觀點(diǎn)。在充滿炒作的硅谷,一家公司可能在幾年內(nèi)就經(jīng)歷過(guò)山車一樣的大起大落,所以這張表可能很快就會(huì)過(guò)時(shí)。
注:圖中特斯拉一欄中的「No waiting in line for coffee」指的是馬斯克曾威脅要解雇所有在 SpaceX 公司排著長(zhǎng)隊(duì)等咖啡的實(shí)習(xí)生,并安裝了攝像頭,以確保此類事件不會(huì)再次發(fā)生。(來(lái)源:https://twitter.com/rabois/status/1514601392178040836)
技術(shù)領(lǐng)先時(shí)間
對(duì)我來(lái)說(shuō),在選擇下一家公司時(shí),最重要的決定因素是該公司是否擁有領(lǐng)先競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)年的技術(shù)優(yōu)勢(shì)。谷歌日志團(tuán)隊(duì)的一位朋友告訴我,他對(duì)小公司不感興趣,因?yàn)樗麄冊(cè)诩夹g(shù)上遠(yuǎn)遠(yuǎn)落后于谷歌的行星級(jí)基礎(chǔ)設(shè)施,他們甚至還沒(méi)有開(kāi)始理解谷歌現(xiàn)在正在解決的問(wèn)題,更不用說(shuō)解決谷歌十年前就已經(jīng)開(kāi)始著手解決的問(wèn)題了。
在上表中,我列出了我認(rèn)為具有獨(dú)特技術(shù)優(yōu)勢(shì)的公司。例如,OpenAI 現(xiàn)在在招聘方面絕對(duì)是壓倒性的,因?yàn)樗麄冊(cè)诖笮驼Z(yǔ)言模型算法方面處于領(lǐng)先地位,能憑借模型 surgery 和超參數(shù)調(diào)優(yōu)這類商業(yè)機(jī)密玩轉(zhuǎn) scaling law。盡管 FAANG 在算力方面擁有優(yōu)勢(shì),但 OpenAI 顯然在創(chuàng)造技術(shù)領(lǐng)先時(shí)間方面做得很好。
與此同時(shí),如果拿一個(gè) FAANG 的普通機(jī)器學(xué)習(xí)研究者和一個(gè)博士生相比,前者在 raw compute 方面要領(lǐng)先 15 年。谷歌和 DeepMind 的語(yǔ)言模型在大多數(shù)指標(biāo)上可能比 GPT-3 更強(qiáng)。但在有些情況下,計(jì)算方面的技術(shù)領(lǐng)先是不夠的。于是,一些研究人員離開(kāi)了谷歌,因?yàn)樵趯?duì)外推出基于大型語(yǔ)言模型的產(chǎn)品時(shí),他們不得不經(jīng)歷很多繁瑣的程序,這令他們非常不滿。
我認(rèn)真考慮過(guò)將我的職業(yè)規(guī)劃轉(zhuǎn)向生成模型(generative models),因?yàn)椋?. 機(jī)器人學(xué)非常難;2. 在 ML 泛化方面,最令人印象深刻的案例似乎總是在生成式建模中。然而,純生成的建??臻g感覺(jué)競(jìng)爭(zhēng)有點(diǎn)激烈,每個(gè)人都在為擁有同樣的產(chǎn)品和研究想法而奮斗。不管有沒(méi)有我,這個(gè)領(lǐng)域都可能以同樣的方式發(fā)展。
擁有未來(lái)技術(shù)對(duì)于招聘工程師來(lái)說(shuō)非常重要,因?yàn)樗麄冎械脑S多人并不想浪費(fèi)自己的生命去建立別人已經(jīng)擁有的能力。舉個(gè)例子,這就像一個(gè)神經(jīng)科學(xué)實(shí)驗(yàn)室試圖招募博士生用膜片鉗實(shí)驗(yàn)研究猴子的大腦,而隔壁的實(shí)驗(yàn)室正在使用光遺傳技術(shù)和 Neurallink 機(jī)器人。如果你有天賦,你可以自己重新發(fā)明這些,但這真值得你花費(fèi)寶貴的時(shí)間嗎?
當(dāng)然,公司和研究實(shí)驗(yàn)室不是一回事。從長(zhǎng)遠(yuǎn)來(lái)看,產(chǎn)品與市場(chǎng)的契合度,以及團(tuán)隊(duì)構(gòu)建未來(lái)技術(shù)優(yōu)勢(shì)的能力將更加重要。現(xiàn)有公司可能會(huì)變得臃腫、偏離軌道,而新貴公司可能會(huì)利用不同的優(yōu)勢(shì),或?qū)⒃O(shè)計(jì)引向獨(dú)特的方向。很多獨(dú)角獸公司都不是先行者。
為什么不選擇自己開(kāi)公司呢?
作為一個(gè)灣區(qū)人,我原本打算圍繞 MLOps 開(kāi)辦自己的公司。我想建立一個(gè)領(lǐng)先的數(shù)據(jù)管理和標(biāo)注系統(tǒng),用于 AGI + 主動(dòng)學(xué)習(xí)。但有三件事改變了我的想法:
首先,我和一些客戶談了談,以了解他們的 ML 和數(shù)據(jù)管理需求,看看有沒(méi)有哪個(gè)產(chǎn)品市場(chǎng)比較適合我。他們的很多問(wèn)題并不需要前沿技術(shù)來(lái)解決,但我對(duì)前沿技術(shù)之外的很多問(wèn)題又不感興趣,比如為營(yíng)銷活動(dòng)構(gòu)建模擬器、為工廠中的機(jī)械臂拾放做出更好的姿勢(shì)評(píng)估器或?qū)τ脩籼嵋獌?nèi)容進(jìn)行排名等。絕大多數(shù)企業(yè)都在解決無(wú)聊但重要的問(wèn)題。但我希望我一生的工作是為人類實(shí)現(xiàn)更大的技術(shù)飛躍。
其次,我認(rèn)為,在公司估值突破 1 億美元后,CEO 們很少能做出任何令人印象深刻的技術(shù)貢獻(xiàn)。要想把工作做得很好,他們就要花大部分時(shí)間去處理協(xié)調(diào)、產(chǎn)品和公司層面的問(wèn)題。他們積累了令人難以置信的社交渠道和影響力,甚至可能不時(shí)提交一些代碼,但他們每天的日程安排充滿了 bullshit,他們?cè)僖膊粫?huì)卓有成效地修補(bǔ)這些代碼了。類似情況也發(fā)生在高級(jí)研究人員身上。這讓我非常害怕。
著名計(jì)算機(jī)科學(xué)家、圖靈獎(jiǎng)得主理查德 · 漢明在他的演講《You and Your Research》中說(shuō)道,「如果你有了一些出色的成果,你就會(huì)被拉進(jìn)各種委員會(huì),然后沒(méi)辦法再出新的成果?!?/span>
有傳聞?wù)f,Ken Thompson 在妻子出去度假一個(gè)月的時(shí)間里寫(xiě)出了 UNIX 操作系統(tǒng),因?yàn)檫@個(gè)月他有時(shí)間專注于更深層次的工作?!禩he Murder of Wilbur Wright》中寫(xiě)道,如果這是真的,那該有多可怕?有沒(méi)有可能 Thompson 一生都背負(fù)著沉重的責(zé)任,然后在一個(gè)短暫的自由時(shí)刻做了一些任何人都沒(méi)有做過(guò)的最重要的工作?
最后,我選擇的 Halodi 已經(jīng)建立了非常棒的技術(shù),他們給了我一個(gè)難得的機(jī)會(huì)去體驗(yàn)未來(lái)生活,這些都建立在領(lǐng)先時(shí)代 5 + 年的東西之上。我對(duì) Bernt(公司 CEO)對(duì)人體解剖學(xué)的尊重印象深刻:從使我們即使沒(méi)有精確規(guī)劃依然可以抓握的過(guò)阻尼系統(tǒng)的內(nèi)在被動(dòng)智能,到讓我們?cè)趲缀醪幌哪芰康那闆r下穿過(guò)可變地形的足部彈簧系統(tǒng)。我們都相信,當(dāng)你想圍繞人類而不是機(jī)器來(lái)設(shè)計(jì)世界時(shí),類人機(jī)器人在完成大多數(shù)任務(wù)時(shí)并非「矯枉過(guò)正」,而是唯一可行的形式。
條條道路通羅馬
幾個(gè)月前,我問(wèn) Ilya Sutskever(OpenAI 首席科學(xué)家),到底是創(chuàng)辦一個(gè)純粹的 AGI 研究實(shí)驗(yàn)室(如 OpenAI、DeepMind),還是一個(gè)可以盈利的技術(shù)公司更有意義,后者可以產(chǎn)生構(gòu)建 AGI 所需的數(shù)據(jù)護(hù)城河。
Ilya 說(shuō):「條條大路通羅馬,每一家成功的科技公司都將會(huì)成為 AGI 公司?!?/span>
這聽(tīng)起來(lái)有點(diǎn)令人詫異,但你應(yīng)該記得,重復(fù)改進(jìn)一個(gè)產(chǎn)品涉及到指數(shù)級(jí)難度增長(zhǎng)的更深度的技術(shù)。
- 在半導(dǎo)體制造中,從 32nm 工藝節(jié)點(diǎn)縮小到 14nm 是相當(dāng)困難的,但從 14nm 到 7nm 是更加困難的,你需要解決超純水之類的中間問(wèn)題;
- 在 1980 年代,為漸凍癥患者創(chuàng)建一個(gè)簡(jiǎn)單的文本轉(zhuǎn)語(yǔ)音系統(tǒng)已經(jīng)成為可能,但改進(jìn)邊緣情況的發(fā)音和自然地處理語(yǔ)調(diào)變化還要得益于深度學(xué)習(xí)的突破;
- 在單臺(tái)計(jì)算機(jī)上你就可以訓(xùn)練一個(gè)不錯(cuò)的字符級(jí)語(yǔ)言模型,但從條件字符建模中去除一些熵需要依靠數(shù)據(jù)中心;
- 高速公路的自動(dòng)駕駛并不太難,但在住宅區(qū)道路上實(shí)現(xiàn) L5 級(jí)別的自動(dòng)駕駛才被認(rèn)為是完備的 AGI。
為了在未來(lái)幾十年繼續(xù)為客戶增加邊際價(jià)值,企業(yè)們必須習(xí)慣于解決一些非常困難的問(wèn)題。也許最終每個(gè)人都會(huì)聚在一起解決同樣的難題,即 AGI,這樣他們就可以制作具有競(jìng)爭(zhēng)力的短視頻應(yīng)用程序、待辦事項(xiàng)列表或語(yǔ)法檢查器。我們可以對(duì)「AGI」的含義以及所有公司實(shí)現(xiàn)這一點(diǎn)需要多長(zhǎng)時(shí)間持懷疑態(tài)度,但我覺(jué)得基礎(chǔ)模型很快就會(huì)成為許多軟件產(chǎn)品的下注之地。
我還想知道幾年后,無(wú)損壓縮大量互聯(lián)網(wǎng)級(jí)數(shù)據(jù)的專業(yè)知識(shí)是否將不再成為技術(shù)領(lǐng)先者 (FAANG) 之間的防御護(hù)城河。因此,尋找輔助數(shù)據(jù)和業(yè)務(wù)護(hù)城河以疊加到大規(guī)模 ML 專業(yè)知識(shí)上是有意義的。通往 AGI 的道路有很多條,我在下面為一些大型玩家勾勒出了這些道路:
例如,Alphabet 擁有很多有價(jià)值的搜索引擎數(shù)據(jù),可以捕捉到人類的想法和好奇心。Meta 記錄了大量的社會(huì)智能數(shù)據(jù)和性格特征。如果他們?cè)敢?,他們可以收?Oculus 控制器的交互來(lái)創(chuàng)建人類行為的軌跡,然后將這些知識(shí)用于以后的機(jī)器人技術(shù)。TikTok 的推薦算法可能比我們更了解自己的潛意識(shí)。即使是像 Grammarly、Slack 和 Riot Games 這樣的公司,也擁有用于人類智能的獨(dú)特?cái)?shù)據(jù)護(hù)城河。
這些公司中的每一個(gè)都可以利用他們的業(yè)務(wù)數(shù)據(jù)作為創(chuàng)造通用智能的楔子,通過(guò)行為克隆人類的思想和欲望本身。
我個(gè)人(通過(guò)加入 Halodi)押注的護(hù)城河是「比其他任何公司都領(lǐng)先 5 年的人形機(jī)器人」。Halodi 已經(jīng)有了,而特斯拉正在開(kāi)發(fā)他們的同類產(chǎn)品。我在 Halodi 的主要工作最初是訓(xùn)練模型以解決移動(dòng)操作中的特定客戶問(wèn)題,同時(shí)也為 AGI 制定路線圖:如何從人形形式壓縮大量具身的第一人稱數(shù)據(jù),從而產(chǎn)生通用智能、心智理論和自我意識(shí)。
近年來(lái),具身 AI 和機(jī)器人研究已經(jīng)失去了一些光彩,因?yàn)榇笮驼Z(yǔ)言模型現(xiàn)在可以解釋笑話,而機(jī)器人仍然在以不可接受的成功率進(jìn)行拾取和放置。但或許,這值得一次反向押注,即僅在比特世界對(duì)模型進(jìn)行訓(xùn)練是不夠的,莫拉維克悖論根本不是悖論,而是我們沒(méi)有解決「大部分智能」的后果。
莫拉維克悖論是由人工智能和機(jī)器人學(xué)者所發(fā)現(xiàn)的一個(gè)和常識(shí)相左的現(xiàn)象。和傳統(tǒng)假設(shè)不同,人類所獨(dú)有的高階智慧能力只需要非常少的計(jì)算能力,例如推理,但是無(wú)意識(shí)的技能和直覺(jué)卻需要極大的運(yùn)算能力。如莫拉維克所寫(xiě),「要讓電腦如成人般地下棋是相對(duì)容易的,但是要讓電腦有如一歲小孩般的感知和行動(dòng)能力卻是相當(dāng)困難甚至是不可能的」。
選擇之后的擔(dān)憂
我對(duì) Halodi(以及一般的 AGI 初創(chuàng)公司)有一些真正的擔(dān)憂。歷史告訴我們,機(jī)器人公司的死亡率很高,我不知道有哪家通用機(jī)器人公司曾經(jīng)成功過(guò)。
機(jī)器人公司傾向于從通用機(jī)器人的使命開(kāi)始,然后迅速轉(zhuǎn)向?qū)W⒂谝恍o(wú)聊的事情。波士頓動(dòng)力、Kindred、Teleexistence——名單不勝枚舉。就像在商業(yè)和生活中一樣,資本和進(jìn)化的力量共同支持著硬件的專業(yè)化,而不是智能的普遍化。我祈禱這不會(huì)發(fā)生在我們身上。
我想起了 Gwern 關(guān)于「時(shí)機(jī)」的文章:過(guò)早推出意味著失敗,但保守和過(guò)晚推出同樣糟糕,因?yàn)闊o(wú)論預(yù)測(cè)如何,一個(gè)好主意都會(huì)像火一樣吸引過(guò)度樂(lè)觀的飛蛾一樣的研究人員或企業(yè)家: 所有人都被獻(xiàn)祭了,只有一個(gè)運(yùn)氣好、在完美瞬間親吻火焰的人,最后贏得了一切,此時(shí)每個(gè)人都可以看到最佳時(shí)機(jī)已經(jīng)過(guò)去。
但我也提醒自己理查德 · 海明對(duì)克勞德 · 香農(nóng)的評(píng)價(jià):
「他想創(chuàng)造一種編碼方法,但他不知道該怎么做,所以他創(chuàng)造了一種隨機(jī)代碼,接著就被卡住了。然后他問(wèn)了一個(gè)不可能的問(wèn)題:這些平均隨機(jī)代碼能做什么?然后他證明了這些平均代碼是隨機(jī)良好的,也就是說(shuō)至少有一個(gè)代碼是良好的。除了有無(wú)畏勇氣的人,誰(shuí)敢這么想?」
人生苦短,做任何事都需要無(wú)限的勇氣。