谷歌Gemini再添猛將!GPA 5.0畢業(yè)即DeepMind高級(jí)科學(xué)家,開(kāi)掛博士給科研新人7點(diǎn)建議
就在Gemini 2.0發(fā)布之前幾天,一位新晉華人博士宣布加入Google DeepMind,作為高級(jí)研究科學(xué)家致力于Gemini預(yù)訓(xùn)練和多模態(tài)研究。
薛復(fù)昭,博士畢業(yè)于新加坡國(guó)立大學(xué)師從尤洋教授,2021年以5.0的GPA成績(jī)碩士畢業(yè)于南洋理工大學(xué),師從莊永聰教授和孫愛(ài)欣教授。
在新加坡國(guó)立大學(xué)攻讀博士期間,曾在Google Brain與谷歌天才科學(xué)家Yi Tay和Mostafa Dehghani一起實(shí)習(xí),并在NVIDIA GEAR與Jim Fan和Yuke Zhu一起實(shí)習(xí)。
讀博3年的7點(diǎn)心得
- 工程能力是研究的基礎(chǔ)
雖然工程能力普遍很重要,但在學(xué)術(shù)界似乎特別被低估。例如,在我?guī)啄昵暗慕?jīng)歷中,人工智能博士招生很少進(jìn)行編程面試。這很令人驚訝,因?yàn)閷?shí)現(xiàn)是將人工智能想法付諸實(shí)踐的關(guān)鍵步驟。許多人可能會(huì)廣泛討論研究概念,但無(wú)法將其轉(zhuǎn)化為實(shí)際應(yīng)用。
強(qiáng)大的工程能力不僅能讓我們?yōu)榇笠?guī)模項(xiàng)目做出貢獻(xiàn)(這是在大語(yǔ)言模型社區(qū)產(chǎn)生重要影響的常見(jiàn)方式),還能激發(fā)創(chuàng)新的研究思路。最近的進(jìn)展,如Scaling Law, MoE, GQA, Flash Attention,往往源于對(duì)底層技術(shù)和社區(qū)面臨挑戰(zhàn)的深入理解。
- 與優(yōu)秀人才共事對(duì)提升研究品味極其有幫助
什么是「研究品味」?在我看來(lái),就是比他人更早識(shí)別出有前景的研究方向的能力。那么...該如何做?去問(wèn)他們!就像我們?cè)诖笳Z(yǔ)言模型中在強(qiáng)化學(xué)習(xí)之前進(jìn)行監(jiān)督訓(xùn)練一樣,我們需要指導(dǎo)和引導(dǎo)來(lái)培養(yǎng)自己的「研究品味」。
在我博士早期,我有幸在谷歌與Yi Tay和Mostafa Dehghani合作,這段經(jīng)歷顯著塑造了我的職業(yè)軌跡。我經(jīng)歷的文化沖擊令人深省。受此啟發(fā),我主動(dòng)尋求機(jī)會(huì)與其他杰出研究者合作,如Jim Fan (范麟熙)、朱玉可、Scott Reed、符堯等。
要真正理解他們的研究品味,我們需要在兩個(gè)關(guān)鍵方面達(dá)成一致:
- 為什么這個(gè)問(wèn)題在技術(shù)上很重要?
- 這個(gè)人是如何培養(yǎng)出這樣的技能和思維方式的?
有趣的是,具有良好研究品味的人并不總能清楚回答這些問(wèn)題,尤其是第二個(gè)問(wèn)題。這就是為什么我認(rèn)為與這些人密切合作能讓我們深入了解他們的日常習(xí)慣、決策過(guò)程和解決問(wèn)題的方法,盡管你也可以通過(guò)電子郵件等方式詢(xún)問(wèn)他們。
- 博士期間要致力于做出簡(jiǎn)潔而有見(jiàn)地的45分鐘演講,而不是追求長(zhǎng)長(zhǎng)的發(fā)表清單
人們攻讀博士通常有兩個(gè)主要原因,即享受科研樂(lè)趣和找到好工作。對(duì)于工作面試,有一個(gè)「還可以」的發(fā)表記錄通常足以讓你通過(guò)初選。
然而,在面試過(guò)程中真正重要的遠(yuǎn)不止論文清單和簡(jiǎn)歷。通常會(huì)有研究演講和幾次一對(duì)一的研究面試(除了基礎(chǔ)知識(shí)和代碼)。雖然聽(tīng)眾規(guī)模不同,但核心目標(biāo)始終相同:做出引人入勝且連貫的演講。
要在這些場(chǎng)合表現(xiàn)出色,要專(zhuān)注于創(chuàng)建一個(gè)扎實(shí)的整體演講,并定期(如每5分鐘)加入富有見(jiàn)地的觀察,以保持聽(tīng)眾的興趣。
- 專(zhuān)注于少量重要論文并深入理解,而不是淺嘗輒止地閱讀很多文章
我通常會(huì)果斷篩選掉arXiv上99%的論文,只關(guān)注有影響力的工作、知名作者和聲譽(yù)良好的機(jī)構(gòu)。
(我理解這種方法有其偏見(jiàn)——一些有價(jià)值的工作可能因各種原因被低估。但事實(shí)是,這種方法通常很高效。我認(rèn)為最好的工作最終都會(huì)通過(guò)引用、討論或他人推薦出現(xiàn)在我們面前。)
雖然你可能偶爾會(huì)錯(cuò)過(guò)一些被埋沒(méi)的好論文,但更重要的是不要被雜亂的論文淹沒(méi)?;ㄌ鄷r(shí)間在這些工作上可能會(huì)將你的研究品味拉向局部最小值,特別是當(dāng)你剛進(jìn)入這個(gè)領(lǐng)域缺乏甄別能力時(shí),這可能需要相當(dāng)長(zhǎng)的時(shí)間和努力來(lái)糾正。
- 在接觸新課題時(shí),要按時(shí)間順序閱讀論文以研究研究趨勢(shì)的演變
例如,你可以按照這個(gè)順序來(lái)閱讀和學(xué)習(xí)MoE-LLMs。這樣,你可以更容易地識(shí)別和總結(jié)趨勢(shì),創(chuàng)建連接不同工作的「思維鏈」,比如Expert-Choice MoE解決了baseline MoEs中的什么問(wèn)題。這個(gè)過(guò)程不僅加深了你的理解和推理能力,還能讓你超越領(lǐng)域的當(dāng)前狀態(tài)進(jìn)行推廣。
有了這個(gè)更廣闊的視角,你可能會(huì)發(fā)現(xiàn)有價(jià)值的未來(lái)研究方向。此外,人們自然傾向于更好地記住最近的信息。作為研究者,跟上最新發(fā)展至關(guān)重要,所以這種方法與我們處理和保留信息的方式很相符。
- 換位思考是提升寫(xiě)作和演講的有效方法
我的寫(xiě)作仍有很大提升空間。不過(guò),我發(fā)現(xiàn)換位思考在以下兩種情況下特別有幫助:
- 寫(xiě)作時(shí)設(shè)身處地為讀者著想。讀者來(lái)自不同背景,而且時(shí)間有限??紤]到這些因素來(lái)撰寫(xiě)文稿很重要。關(guān)鍵是要讓你的寫(xiě)作易于目標(biāo)受眾理解。保持簡(jiǎn)潔,既不要太長(zhǎng),也不要太淺或太深,專(zhuān)注于你想傳達(dá)的最重要觀點(diǎn)。考慮在讀者的限制條件下,什么內(nèi)容最有影響力。
- 閱讀時(shí)想象作者寫(xiě)作時(shí)的所思所想。學(xué)術(shù)論文和演講信息密度很高。作者通?;ㄙM(fèi)大量時(shí)間精煉它們,但背后的原始數(shù)據(jù)或想法往往雜亂無(wú)章。在閱讀他人的作品時(shí),不要被動(dòng)接收,要思考你會(huì)如何處理原始材料。如果你能接觸到初始數(shù)據(jù),你會(huì)講述什么樣的故事?你會(huì)畫(huà)什么圖來(lái)闡明觀點(diǎn)?與你自己平時(shí)的寫(xiě)作方法相比,作者的思路的哪些部分更值得借鑒?這個(gè)練習(xí)讓你有頻繁的機(jī)會(huì)練習(xí)寫(xiě)作和演講,而不是等花幾個(gè)月完成整個(gè)項(xiàng)目后才有機(jī)會(huì)來(lái)練習(xí)。
- 博士學(xué)位有幫助但不是從事大語(yǔ)言模型研究的必要條件
攻讀博士可以提供寶貴的學(xué)習(xí)經(jīng)驗(yàn)。除了科研技能,學(xué)術(shù)界擅長(zhǎng)的一個(gè)領(lǐng)域是教學(xué)模塊——這在工業(yè)實(shí)驗(yàn)室中很少遇到。作為助教,你有機(jī)會(huì)設(shè)計(jì)講座、作業(yè)、輔導(dǎo)和考試。這種經(jīng)驗(yàn)與進(jìn)行研究或指導(dǎo)初級(jí)研究人員不同,如果你的目標(biāo)是成為教授,這是必不可少的。
然而,如果你的主要目標(biāo)是直接為最先進(jìn)的大語(yǔ)言模型做出貢獻(xiàn),直接加入研究實(shí)驗(yàn)室可能更有效。在工業(yè)實(shí)驗(yàn)室,你可能會(huì)有:
- 獲取更強(qiáng)大的計(jì)算資源。
- 與實(shí)踐經(jīng)驗(yàn)豐富、技能出眾且自我驅(qū)動(dòng)的同事合作。
- 參與具有重大影響力的大型項(xiàng)目的機(jī)會(huì)。
在我的博士期間,我在工業(yè)實(shí)驗(yàn)室實(shí)習(xí),但讀者也完全可以作為研究工程師或AI駐地研究員加入這樣的實(shí)驗(yàn)室。在我看來(lái),這些職位可以成為成為大語(yǔ)言模型研究者的快速通道,讓你有機(jī)會(huì)在實(shí)踐性強(qiáng)、影響力大的環(huán)境中學(xué)習(xí)所需的大部分技能。
值得注意的是,像Google DeepMind,OpenAI這樣的地方有許多杰出的研究人員并沒(méi)有博士學(xué)位。這突顯出雖然博士學(xué)位有益,但它并不是在大語(yǔ)言模型研究領(lǐng)域取得成功的唯一途徑。