Transformer七子重聚GTC,老黃親自贈送簽名版DGX-1!7年奠基之作背后佚事揭秘
GTC大會上,老黃與Transformer八位作者一場最新訪談,簡直火爆了!
演講前一個半小時,現場門外就擠滿了人。許多人早早排起了長隊,期待著這場別致的訪談。
就連老黃也提前到場,在人群中合影。
老黃主旨演講當天,現場虛無坐席,網友戲稱他為AI屆的「霉霉」
在場的7位作者現在的身份分別是:
- Noam Shazeer:Character AI聯合創(chuàng)始人兼首席執(zhí)行官
- Aidan Gomez:Cohery聯合創(chuàng)始人兼首席執(zhí)行官
- Ashish Vaswani:Essential AI聯合創(chuàng)始人兼首席執(zhí)行官
- Llion Jones:Sakana AI聯合創(chuàng)始人兼首席技術官
- Illia Polosukhin:Near Protocol聯合創(chuàng)始人
- Jakob Uskhoreit:Inceptive聯合創(chuàng)始人兼首席執(zhí)行官
- Lukasz Kaiser:OpenAI技術員
八位作者中,只有Niki Parmar(Essential AI的聯合創(chuàng)始人)沒有親臨現場。
訪談中的亮點滿滿,他們紛紛認為現在急需一個能夠替代Trasformer的架構出現。
- Llion Jones想出了「Attention is All You Need」論文名。當時,他們在架構中添加了如「卷積」一些東西,但性能反而變差了,因此得名。
- Jakob Uszkoreit想出了「Transformer」一名。
- Noam Shazeer的另一個名字是「CargoNet」。
- 推理是下一件大事。推理和從小數據中學習是密切相關的。
值得一提的是,采訪結束后,老黃親自為Transformer作者頒發(fā)了,一臺親筆簽名的DGX-1。
Transformerer八子背后秘密
同在今天,Wired的一篇獨家專訪,報道了Transformerer八子背后那些不為人知的故事。
顛覆式論文署名
2017年春,Transformer奠基之作「Attention Is All You Need」橫空出世。
當時,資歷最深的Noam Shazeer看到提交的版本時,對自己名列首位滿臉震驚。這也暗示了他對這項工作做出的巨大貢獻。
Noam表示,「自己當時并沒有想太多」。
論文地址:https://arxiv.org/pdf/1706.03762.pdf
決定論文作者署名順序——誰位列榜首,誰被放在最后,總是需要精心衡量的。
特別是在,每個參與者都在這項集體工作中,貢獻了自己獨一份努力的情況下。
在緊張完成論文的過程中,他們最終選擇了「顛覆」傳統(tǒng)貢獻者排名方式。
8位作者決定在每個名字旁加上了一個星號?,并在首頁做了腳注:
每位作者貢獻相等,名單排列順序隨機。
在截止日期之前,他們將論文提交給第31屆國際神經信息處理系統(tǒng)大會NIPS,由此引發(fā)的一場AI革命正式開啟。
「Attention Is All You Need」這篇傳奇論文,即將迎來第七個誕生日?,F在,全網被引數已超11萬,前前后后提交了87個版本。
8位作者從神級網絡出發(fā),提出了全新的Transformer架構——成為了ChatGPT、DALL-E、Midjourney等令人矚目AI產品背后的核心技術。
Noam開玩笑表示,「如果自己當時早知道這篇論文會如此出名,可能會更加關心作者排序」。
現在,這八位作者已然成為了人們熟知的AI網紅。
Llion Jones稱,「有人因為我參與了那篇論文而向我索要合影」!
就連AI教父Geoffrey Hinton對這篇開山之作贊不絕口,「如果沒有Transformer,我認為我們現在不會走到今天」。
沒有Jakob,沒有Transformer
說來,Transformer技術的故事起源于八位重要人物之一:Jakob Uszkoreit。
Jakob的父親計算語言學領域知名學者Hans Uszkoreit。
上世紀60年代末,正讀高中的Hans逃亡至西德,在柏林開始學習計算機科學和語言學。當Hans在加州門洛帕克的SRI人工智能研究所工作時,Jakob出生了。
Jakob在德國接受了大學教育。
雖然他最初沒有打算深入研究語言學,但在開始研究生學習的過程中,他在谷歌的Mountain View辦公室實習,偶然加入了公司的翻譯團隊。
顯然,他又回到了父親專注的領域,沿著父親的道路繼續(xù)向前。
Jakob他放棄了攻讀博士的計劃,并于2012年決定加入谷歌的一個項目團隊——致力于開發(fā)一個能夠在搜索頁面直接回答用戶問題的系統(tǒng),避免用戶跳轉到其他網站。
當時,蘋果剛推出了Siri——一個承諾能夠在日常對話中提供即時答案的虛擬助手,這讓谷歌高層感到了極大的競爭壓力:Siri有可能搶走他們的搜索流量。
因此,谷歌更加重視Jakob領導的新團隊。Jakob回憶道,「其實那只是虛驚一場,Siri并沒有對谷歌構成真正的威脅」。
但這次經歷,讓他有機會深入研究那些能夠與人類進行交互對話的計算機系統(tǒng)。
當時,曾經是學術界冷門的循環(huán)神經網絡(RNN),突然開始超越其他人工智能工程方法。
這種網絡由許多層組成,信息在各層之間反復傳遞,以找到最佳的回應方式。與此同時,神經網絡在圖像識別等領域大獲全勝,AI復興突然開始了。
谷歌瘋狂地調整人力資源配置,以采納最新技術,并希望開發(fā)出能夠生成類人回應的系統(tǒng)。
然而,這個領域遇到了一些挑戰(zhàn)——RNN難以處理較長文本。
比如,對于「Joe是一個棒球運動員,吃過一頓豐盛的早餐后,他去了公園接住兩次擊球」這樣的句子。
模型為了理解「兩個擊球」,語言模型必須記得之前提到的棒球相關內容。
換句話說,它需要保持「注意力」。
當時的解決方案是引入了「長短期記憶」(Long Short-Term Memory, LSTM),這種創(chuàng)新讓語言模型能夠處理更大、更復雜的文本序列。
但計算機仍然是按照字面意思,一個接一個token處理文本,這樣就錯過了可能在文本后面出現的上下文線索。
Jakob認為,「我們當時采用的方法基本上是臨時應對措施,沒能在大參數模型上有效運作」。
大約在2014年,Jakob開始探索一種名為自注意力(self-attention)的全新方法。
這種方法使得網絡能夠通過參考文段中的其他部分,來翻譯某個詞,這些參考部分可以幫助闡明詞語的意圖,從而幫助系統(tǒng)生成準確的翻譯。
Jakob當時認為,自注意力機制在某種程度上與人類處理語言的方式相似。
他相信,與RNN相比,自注意力模型可能更快、更有效。它處理信息的方式非常適合當時,大量生產的用于支持ML熱潮的強大并行處理芯片。
與其線性地逐字檢查(查看每個詞),不如采用一種更為并行的方法(同時查看多個詞)。
對此,他懷疑,如果操作得當,完全可以只用自注意力模型來獲得更好的效果。
然而,當時,包括Jakob的父親在內,不是每個人都看好這個想法:
人們對此表示深度懷疑,因為這意味著將放棄所有現有的神經網絡架構。放棄RNN?這在當時幾乎等同于異端!
隨后,Jakob說服了幾位同事,對自注意力進行了實驗。
最初的研究成果,給出了一些希望,作者們并在2016年發(fā)表了相關的論文。并在當時,這項研究在個谷歌搜索和廣告中,得到了應用。
接下來,Jakob希望進一步推動研究,但其合著者沒有人對此感興趣。
Jakob深信,自注意力的能力遠不僅于此。他向那些不論是愿意,還是不愿意傾聽的人闡述自己的觀點。
他還在經常在谷歌辦公樓北側的Charleston Road 1945號樓內的白板上,勾勒自己的想法。
2016年某天,在谷歌的一家咖啡廳里,Jakob和一位供職谷歌3年的科學家Illia Polosukhin(Transformer最后一位作者)一起吃午飯。
聊天中,Illia談到了自己負責「回答搜索欄直接提出的問題」的項目進展不是很順利,因為若在谷歌搜索上快速回答用戶問題,需要的解決方案必須既經濟又高效。
Jakob當時提出了一種解決方案,「為何不考慮使用自注意力技術呢」?
Illia偶爾會和一位名叫Ashish Vaswani的同事打交道。
Vaswani出生在印度,在中東長大,后來他去南加州大學攻讀博士學位,加入了該校頂尖的機器翻譯小組。
完成學業(yè)后,他搬到Mountain View,加入了Google Brain。
他聽說了自注意力的概念就主動加入這個項目。
這三位研究者共同撰寫了一份名為「Transformers: Iterative Self-Attention and Processing for Various Tasks」的設計文檔。
Jakob表示,他們從項目一開始就確定了「Transformer」這一名稱。這個機制的構想是,它能夠轉換處理的信息,讓系統(tǒng)能夠像人類一樣提取盡可能多的理解,或者至少給人一種這樣的感覺。
此外,Jakob還懷念他童年時期玩耍的Hasbro變形金剛玩具。所以這份文檔以一張描繪六個變形金剛在山地中互射激光的卡通圖片作為結尾。
2017年初,Polosukhin離開Google,開始了自己的創(chuàng)業(yè)之旅。與此同時,新的合作伙伴也陸續(xù)加入。
Niki Parmar是其中之一,這位印度工程師曾在印度為一家美國軟件公司工作,后來移民美國。
2015年,她從南加州大學獲得了碩士學位,并受到了所有大型科技公司的青睞,最終她選擇了Google。
加入Google后,她與Uszkoreit合作,專注于開發(fā)新的模型變體以提升Google搜索的性能。
Llion Jones也是新成員之一,他在威爾士出生并長大。
在伯明翰大學,他選修了一門AI課程,對被介紹為歷史趣事的神經網絡產生了濃厚興趣。2009年7月,他獲得了碩士學位,但由于經濟衰退難以找到工作,幾個月都靠救濟金生活。
后來,他在一家當地公司找到了工作,并抱著試一試的心態(tài)申請了Google。成功進入Google后,他最終加入了Google Research團隊,其時的經理正是Polosukhin。
有一天,Jones從同事Mat Kelcey那里了解到了自注意力的概念,之后他加入了Transformer項目團隊。
(之后,當Jones向Kelcey介紹Transformer項目時,Kelcey并不看好。「我告訴他,‘我不確定這能成功’,這恐怕是我一生中最大的誤判。」Kelcey現在回憶道。)
Transformer項目吸引了其他試圖改進大型語言模型的Google Brain研究者。第三波成員中有來自波蘭的理論計算機科學家?ukasz Kaiser和他的實習生Aidan Gomez。
Gomez在加拿大安大略的一個小農村長大,每年春天,他的家人都會采集楓樹汁制作糖漿。
在多倫多大學讀大三時,他對AI產生了濃厚興趣,并加入了Geoffrey Hinton領導的機器學習小組。
他開始聯系Google發(fā)表論文的作者,希望能繼續(xù)他們的研究。
Kaiser對他的提議感興趣,邀請他來實習。直到幾個月后,Gomez才意識到這些實習機會原本是為博士生準備的,而他只是一名本科生。
Kaiser和Gomez很快意識到,自注意力似乎是一個充滿希望且更為激進的解決方案?!肝覀兘涍^深思熟慮地討論了是否要合并這兩個項目,」Gomez說。他們決定合并。
Transformer團隊著手構建一個自注意力模型,用于文本翻譯。
他們采用一個名為BLEU的標準來評估模型性能,該標準將機器翻譯的結果與人類翻譯者的工作進行對比。
他們的新模型從一開始就表現出色?!肝覀儚牧汩_始,很快就達到了與當時最佳替代方案LSTMs相當的水平,」
Uszkoreit說。但與長短期記憶相比,它并沒有顯示出更優(yōu)的性能。
一直到2017年某天,Noam Shazeer偶然間了解到了他們的項目,情況才發(fā)生了轉變。
Shazeer是谷歌的資深員工,自2000年加入以來,因其在公司早期廣告系統(tǒng)上的工作而成為傳奇人物。
他已經在深度學習領域工作了五年,最近對大語言模型產生了興趣。但他認為,這些模型還遠未能實現流暢對話的可能性。
Transformer論文在NeuraIPS截止日期5分鐘前才完成
Shazeer回憶說,他正走在1965號樓的走廊上,經過Kaiser的工作區(qū)時,聽到了一場激烈的討論。
「我聽到Ashish在討論使用自注意力的想法,Niki對此非常興奮。我想,哇,這聽起來是個好主意。這是一群正在做有前途工作的聰明人?!?/span>
Shazeer對現有的循環(huán)神經網絡感到「不滿」,他想:「讓我們來替換它們吧」!
Shazeer的加入對項目至關重要?!赶褡宰⒁饬@樣的理論或直觀機制,往往需要經驗豐富的‘魔術師’的精心實現,才能顯示出任何成效,」Uszkoreit說。
Shazeer立即開始施展他的「魔法」。他決定重寫Transformer團隊的代碼?!肝腋叩谝恍栽?,自己動手實現了,」他說。雖然偶爾會向Kaiser請教問題,但大多數時間他都是獨立工作,最后他回來說:「看,它真的有效了?!?/span>
通過使用被團隊成員后來形容為「魔法」、「煉金術」和「花里胡哨的東西」的方法,他將系統(tǒng)提升到了新的高度。
「這之后我們就開始了一場全力沖刺,」Gomez說。
他們被激勵了,也想趕在5月19日——NeuraIPS提交論文的截止日期前完成論文。
當來到第二年春天時,實驗的進度加快了。他們測試了兩種Transformer模型:一個是經過12小時訓練的基礎模型,另一個是經過三天半訓練的更強大版本,名為Big。他們將這兩個模型用于英德翻譯。
基礎模型超越了所有競爭對手——而Big版本則以一項決定性的高BLEU分數打破了之前的記錄,同時在計算效率上也更勝一籌。
「我們用比其他任何人都少的時間做到了這一點,」Parmar說?!高@只是開始,因為分數還在不斷提高?!巩擴szkoreit聽到這個消息時,他從他的山地探險車里拿出了一瓶舊香檳慶祝。
截止日期前的最后兩周異常忙碌。盡管有些團隊成員在1945號樓有自己的工位,但他們更多時候選擇在1965號樓工作,因為那里有更好的濃縮咖啡機。
Gomez回憶道:「大家?guī)缀鯖]怎么休息。」作為實習生,他不僅要不停地調試代碼,還要為論文制作圖表和可視化內容。
在此類項目中,通過移除某些部分來觀察剩余部分是否能夠獨立完成任務(即進行消融實驗)是很常見的做法。
Gomez說:「我們嘗試了各種技巧和模塊的組合,看看哪些有效,哪些無效。我們問自己,為什么模型的表現出乎意料?哦,是因為我們忘記正確實現遮掩了。現在能正常工作了嗎?可以的,那就繼續(xù)下一步。所有這些,現在我們稱之為Transformer的組件,都是這場高強度迭代試錯過程的產物?!?/span>
在Shazeer的幫助下進行的消融實驗最終呈現了「一種極簡主義的成果」,正如Jones所說,「Noam就像個魔術師。」
Vaswani有一次在寫論文的夜晚,在辦公室的沙發(fā)上睡著了。他被沙發(fā)旁的窗簾圖案吸引,那圖案在他看來像是神經元和突觸。
Gomez也在場,Vaswani對他說,他們的工作將超越機器翻譯的范疇。
「最終,就像人腦一樣,你需要將語音、音頻、視覺等多種模態(tài)融合到一個統(tǒng)一的架構中,」他說?!肝覐娏腋杏X到,我們正在接觸到某種更廣泛適用的東西。」
然而,在谷歌的高層看來,這項工作不過是又一個有趣的AI項目。當被問及他們的上司是否曾經召集他們了解項目進展時,回答并不多。
但Uszkoreit表示:「我們意識到這可能是件大事。這也是為什么我們在論文末尾特別強調了一句話,討論未來的工作?!?/span>
那句話預示著接下來可能發(fā)生的事情——Transformer模型將應用于幾乎所有形式的人類表達。
「我們對基于注意力的模型的未來感到興奮,」他們寫道?!肝覀冇媱潓ransformer擴展到文本之外的輸入和輸出模態(tài),包括圖像、音頻和視頻?!?/span>
在截止日期前的幾個晚上,Uszkoreit意識到他們需要一個標題。Jones指出,團隊已經決定放棄了長短期記憶(LSTMs)等公認的最佳實踐,轉而采用一種技術:注意力。他回憶起披頭士樂隊的一首歌《All You Need Is Love》,于是提議將論文命名為《Attention Is All You Need》。
「我是英國人,」Jones解釋說。「這個主意只是一時興起。我沒想到他們真的會采納?!?/span>
他們一直在收集實驗結果,直到最后一刻?!赣⒎ǚg的數據在我們提交論文前五分鐘才到手,」Parmar說?!肝耶敃r正坐在1965號樓的微廚房里,拼命整理最后一組數據?!棺罱K,在截止時間前不到兩分鐘,他們提交了論文。
谷歌和許多科技公司一樣,迅速對這項工作申請了臨時專利。這主要是為了建立專利庫進行防御,并非阻止他人使用這些創(chuàng)新。(谷歌堅信,只要技術進步,自己就能從中受益。)
Transformer團隊從會議的同行評審中得到了混合反饋?!赣械脑u審持積極態(tài)度,還有一個評審覺得很棒,另外一個覺得只是還行」,Parmar回憶道。最終,論文被接受在一個晚間的海報展示環(huán)節(jié)中展出。
到了12月,這篇論文引起了廣泛關注。12月6日,他們的四小時展示吸引了眾多科學家前來了解具體內容。
幾個作者們講到聲音沙啞。會議在晚上10:30結束時,仍有許多人圍觀不散。
「最后是安保讓我們離開的,」Uszkoreit說。
對他來說,最驕傲的一刻是計算機科學家Sepp Hochreiter的贊賞——考慮到Hochreiter是LSTMs的共同發(fā)明者,這份贊賞意義非凡,因為Transformer正是取代了LSTMs,成為了AI領域的新寵。
Transformer并沒有一夜之間改變世界,甚至引起谷歌立即的重視
Kaiser回憶,當時Shazeer向谷歌高層提議,應該放棄現有的搜索索引,轉而使用Transformer訓練一個龐大的網絡,徹底改變谷歌的信息組織方式。
即便是Kaiser也曾認為這個想法不切實際。但現在,人們普遍認為這只是時間問題。
OpenAI對此反應更為迅速。
論文發(fā)表后不久,曾在谷歌與Transformer團隊共事的OpenAI首席研究員Ilya Sutskever便建議其科學家Alex Radford探索這一想法,隨后誕生了首批GPT產品。
OpenAI的CEO Sam Altman去年對我說:「Transformer論文發(fā)布時,我認為谷歌內部沒有人真正理解它的意義?!?/span>
但實際情況更加復雜?!肝覀兒芮宄ransformer能做很多神奇的事情,」
Uszkoreit說?!改憧赡軙?,為什么谷歌在2018年沒有推出像ChatGPT這樣的產品?實際上,我們在2019年或2020年就完全有可能推出GPT-3甚至3.5。真正的問題不是我們是否看到了它的潛力,而是為什么我們沒有利用這一點做出成果?這個問題的答案很復雜?!?/span>
很多技術評論家認為,谷歌已經從一個注重創(chuàng)新的樂土變成了一個只看重盈利的官僚機構。
正如Gomez向《金融時報》所述:「他們停止了現代化改革,也沒有接受這項技術?!?/span>
但對于一個長期引領行業(yè)并且獲得巨額利潤的巨頭公司來說,采取這樣大膽的舉措確實需要勇氣。
從2018年開始,谷歌確實將Transformer技術融入到了其產品中,首先是翻譯工具。同年,谷歌還推出了一款基于Transformer的新語言模型BERT,并在隔年開始用于搜索功能。
然而,與OpenAI的突破性進展和微軟將基于Transformer的系統(tǒng)大膽整合進產品線的舉措相比,谷歌的這些內部改進顯得較為保守。
去年我詢問谷歌CEO Sundar Pichai為何谷歌沒有成為首個推出類似ChatGPT這樣的大型語言模型的公司時,他認為在這種情況下觀望他人先行是有益的。
「我不完全確定如果是我們先行會不會同樣成功。事實上,人們在看到它的工作方式后,我們能做得更多,」他表示。
這八位作者之后都已離開谷歌。像成千上萬的其他人一樣,他們現在正以某種方式與他們在2017年創(chuàng)造的、由系統(tǒng)驅動的系統(tǒng)共事。我采訪了這八位Transformer的創(chuàng)造者,試圖拼湊出這一突破性成就的全貌,這是一次人類智慧的集結,創(chuàng)造了一臺可能最終會自行發(fā)聲的機器。