自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OpenAI公關(guān)跳起來捂他嘴：Transformer作者公開承認參與Q*！

作者：量子位 2024-03-25 13:03:00

人工智能新聞

當記者試圖詢問Lukasz Kaiser更多關(guān)于Q*的問題時時，OpenAI的公關(guān)人員幾乎跳過桌子去捂他的嘴。

Transformer作者中唯一去了OpenAI的那位，公開承認了：

他參與了Q*項目，是這項新技術(shù)的發(fā)明者之一。

這幾天除了英偉達老黃組局把Transformer作者聚齊，他們中的幾位還接受了連線雜志的采訪，期間出了這么一個小插曲。

當記者試圖詢問Lukasz Kaiser更多關(guān)于Q*的問題時時，OpenAI的公關(guān)人員幾乎跳過桌子去捂他的嘴。

結(jié)合奧特曼在接受采訪時，毫不遲疑地拒絕了相關(guān)提問，“我們還沒準備好談?wù)撨@個話題”。

神秘Q*，成了OpenAI當前最需要保守的秘密之一。

不過對于Transformer背后的開發(fā)內(nèi)幕，以及谷歌究竟為什么沒能在得到這項技術(shù)之后搶先推出轟動世界的AI產(chǎn)品，作者們透露了不少：

Noam Shazeer（現(xiàn)Character.AI創(chuàng)始人）才是貢獻最大的
谷歌早在2012年嘗試手開發(fā)生成式AI搜索
2017年他們就建議訓(xùn)練萬億參數(shù)大模型，但未被高層采納

總之，信息量比幾位在老黃的圓桌論壇上商業(yè)互吹要高得多。

《Attention is all you need》發(fā)表于2017年，到現(xiàn)在被引次數(shù)已超過11萬。

它不僅是當今ChatGPT為代表的大模型技術(shù)起源之一，其中介紹的Transformer架構(gòu)和注意力機制也被用在了Sora、AlphaFold等眾多改變世界的AI技術(shù)之中，是當之無愧的傳奇。

為什么是谷歌能搞出這等成果？谷歌又為什么在后來的大模型競爭中落后？

整個故事還要從2012年說起。

谷歌害怕Siri搶飯碗

2011年底，蘋果正式推出Siri，試圖在對話中提供對問題的答案。

谷歌高層如臨大敵，認為Siri可能會搶走他們的搜索流量。

2012年，一個團隊致力于開發(fā)新功能，期望能在搜索頁面上直接回答用戶的問題，而不用點擊鏈接跳轉(zhuǎn)到其他網(wǎng)站。

最終這項努力催生出了Transformer架構(gòu)，能有效在數(shù)據(jù)和算力上擴展，導(dǎo)致了整個AI領(lǐng)域重大突破。

Jokob Uszkoreit（現(xiàn)AI生物技術(shù)公司Inceptive聯(lián)合創(chuàng)始人）就是在這個時候放棄攻讀博士學(xué)位加入了這個團隊，成為Transformer最初的起點。

他來自德國，碩士畢業(yè)于柏林工業(yè)大學(xué)，父親Hans Uszkoreit是著名計算語言學(xué)家、歐洲科學(xué)院院士。

在Uszkoreit（后簡稱烏茲哥）現(xiàn)在看來，谷歌高層當時對Siri的恐慌是沒必要的，Siri從未真正威脅到過谷歌的業(yè)務(wù)，但他很高興能有機會深入研究AI和對話系統(tǒng)。

2012年也是AlexNet在計算機視覺大獲成功、神經(jīng)網(wǎng)絡(luò)復(fù)興的時候，谷歌瘋狂地安排員工嘗試類似的技術(shù)，希望能開發(fā)出自動補全電子郵件的功能，或相對簡單的客戶服務(wù)聊天機器人。

當時最被認可的方案是長短期記憶網(wǎng)絡(luò)LSTM，但這項技術(shù)只能按照順序處理句子，無法有效利用文章后面可能出現(xiàn)的線索。

直到2014年左右才有了新進展，烏茲哥開始嘗試現(xiàn)在被稱為“自注意力”的方法。

注意力機制誕生

烏茲哥認為自注意力模型可能比循環(huán)神經(jīng)網(wǎng)絡(luò)更快、更有效，處理信息的方式也非常適合擅長并行處理的GPU。

但當時，包括他的學(xué)術(shù)大牛父親在內(nèi)，許多人都不看好，認為拋棄了循環(huán)神經(jīng)網(wǎng)絡(luò)就是一種異端。

烏茲哥花了一些力氣說服幾位同事一起試驗新想法，并于2016年發(fā)表了一篇相關(guān)論文。

在這項研究中只使用了極小的文本訓(xùn)練（SNLI數(shù)據(jù)集，包含57萬個人類寫的英語句子）。

烏茲哥希望進一步推進他們的研究，但他的合作者都不感興趣再繼續(xù)了。

其他研究人員就像在答題闖關(guān)中剛答對了一道題就帶著微薄的獎金離開，但烏茲哥堅持認為自注意力機制可以發(fā)揮更大的作用，開始在公司里到處找人安利他的想法。

2016年的一天，他終于遇到志同道合的人Illia Polosukhin（現(xiàn)區(qū)塊鏈公司NEAR Protocol創(chuàng)始人）。

集齊8位圓桌騎士

Polosukhin（后簡稱菠蘿哥）當時已在谷歌工作三年，被分配到為搜索問題直接提供答案的團隊。

菠蘿哥的進展不順利，因為從用戶體驗出發(fā)，需要在幾毫秒內(nèi)對問題產(chǎn)生回應(yīng)，當時還沒有這么高性能的解決方案。

烏茲哥與菠蘿哥共進午餐的時候聽說這事，毫不猶豫的安利起他的自注意力機制。

菠蘿哥曾透露，他后來覺得A自注意力就像科幻小說《你一生的故事》以及改編電影《降臨》里外星人“七肢桶”的語言，沒有先后順序，而是像幾何圖案一樣排列。

總之，菠蘿哥后來不僅同意嘗試，還拉來了第三位成員Ashish Vaswani合作（先后創(chuàng)辦了Adept AI和Essential AI）。

Vaswani（后簡稱瓦斯哥）來自印度，博士畢業(yè)于南加州大學(xué)后加入谷歌大腦，相信神經(jīng)網(wǎng)絡(luò)將促進人類整體的理解能力。

三位研究人員共同起草了Transformer的設(shè)計文檔，他們從第一天開始就選擇了同樣代表“變形金剛”的這個名字，因為“系統(tǒng)會改變接收到的信息”，也因為菠蘿哥小時候喜歡玩變形金剛玩具。

不過菠蘿哥沒過多久就從谷歌離開去創(chuàng)業(yè)了，同時，其他成員陸續(xù)加入這個小隊伍。

2017年初，第四位成員Niki Parmar（后簡稱帕姐）加入，他與瓦斯哥同樣來自印度、也都畢業(yè)于南加大，后來兩人也成了創(chuàng)業(yè)伙伴。

后面幾位成員的加入多少都帶點戲劇性。

第五位Llion Jones（后簡稱囧哥）來自英國，2009年碩士畢業(yè)于伯明翰大學(xué)，但有好幾個月找不到工作靠救濟金工作。2012年他先加入Youtube團隊，后進入谷歌研究院。

他是團隊中最晚從谷歌離職的，去年在日本成立了Sakana AI。

囧哥是從另一位同事Mat Kelcey（他就出現(xiàn)一次，不用簡稱了）那里聽說Transformer的，不過Kelcey自己當時并不看好這個項目。

Kelcey信奉貝葉斯，他的頭像是AI預(yù)測他是技術(shù)宅的概率為60%。后來他認為沒加入Transformer團隊這是他一生中最大的預(yù)測失誤。

話說回來，第六位Aidan Gomaz（后簡稱割麥子，現(xiàn)AI公司Cohere創(chuàng)始人）是最年輕的，他在多倫多大學(xué)讀大三時加入Hinton的實驗室，主動給谷歌里各種寫過有意思論文的人發(fā)郵件申請合作。

第七位Lukasz Kaiser（后簡稱凱哥，現(xiàn)OpenAI研究員）邀請了割麥子參與實習(xí)。直到幾個月后，割麥子才知道這實習(xí)本來是針對博士生的，而不是他一個本科生。

凱哥來自波蘭，本來做的是理論計算機工作，后來發(fā)現(xiàn)自注意力對他們當時正在解決的問題（可分布式計算的大型自回歸模型）是一種有前途且更激進的方案，兩人就加入了Transformer團隊。

六人（菠蘿哥已經(jīng)創(chuàng)業(yè)去了）聚到一起后，團隊開始把試驗方向定在機器翻譯，使用BLEU基準測試來把模型翻譯結(jié)果與人工翻譯做比較。

早期Transformer原型表現(xiàn)不錯，但只是與LSTM方案差不多，并沒有更好。

此時，第八位關(guān)鍵成員Noam Shazeer（后簡稱沙哥）出場了，他畢業(yè)于杜克大學(xué)，2000年加入谷歌，當時全公司只有200人左右，

后來他成為谷歌內(nèi)部的傳奇人物，參與了谷歌搜索的拼寫糾正功能，也負責過早期廣告系統(tǒng)，2021年離開谷歌后創(chuàng)辦了Character.AI。

據(jù)沙哥回憶，當時他正在辦公樓走廊里走，經(jīng)過凱哥的工位時聽到激烈的對話：瓦斯哥正在談?wù)撊绾问褂米宰⒁饬?，而帕姐對此很興奮。

沙哥覺得這是一群有趣的聰明人在做有前途的工作，最終被凱哥說服加入。

至此，8位傳奇人物終于全部登場。

沖刺NIPS圣杯

沙哥的加入至關(guān)重要，他用自己的想法重新編寫了整個代碼，把整個系統(tǒng)提升到了一個新的水平。

團隊一下充滿動力，開始拼命卷自己，想在2017年NIPS（后改名NeurIPS）截止的5月19日之前完成。

Deadline前的最后兩周，他們大部分時間都在咖啡機附近的辦公室，很少睡覺。

割麥子作為實習(xí)生不斷地瘋狂調(diào)試，試驗各種技巧和網(wǎng)絡(luò)模塊的排列組合。

最終在沙哥的幫助下，人們現(xiàn)在所知道的Transformer架構(gòu)誕生了，相比試驗中的其他方案顯得非常“極簡主義”。他們這樣評價：

Noam（沙哥）是一個巫師。

沙哥厲害，但是沙哥并不自知?？吹秸撐牟莞宓臅r候，他發(fā)現(xiàn)自己是一作還很驚訝。

討論一番后，最終他們決定打破學(xué)術(shù)界一作二作通訊作的規(guī)則，隨機排序，并給每個人名字后都打上星號，腳注標明都是平等貢獻者。

在給論文取名字的階段，來自英國的囧哥提議借用披頭士樂隊的歌曲《All You Need Is Love》，改成《Attention is all you need》，其他人也同意了。

他們訓(xùn)練了基礎(chǔ)和大杯兩個模型，其中65M基礎(chǔ)版就擊敗了所有同級競爭對手，213M大杯版甚至破了BLEU測試的記錄，同時計算效率也更高。

直到截止日期最后幾分鐘，他們還在繼續(xù)收集實驗結(jié)果，英法翻譯的數(shù)據(jù)是最后5分鐘出來的，論文在最后兩分鐘提交。

當時學(xué)術(shù)會議審稿人的反應(yīng)不一，一個評價積極，一個評價非常積極，第三個評價是只是“還算ok”。

到了12月會議正式線下舉辦的時候，這篇論文引起了轟動。4小時的會議上擠滿了想要了解更多的科學(xué)家。

參會的幾位作者一直聊到嗓子嘶啞，最后場地閉館時仍然人頭攢動，最后被保安清場。

從整個Transformer誕生歷程來看，谷歌當年的開放包容的文化是必不可少的：

這八個人聚在一起，是靠走廊里的偶遇和午餐時聊天。

OpenAI摘桃子

回到論文撰寫過程中的某一天，瓦斯哥累得癱倒在辦公室的沙發(fā)上，盯著窗簾看出了幻覺，覺得布料上的圖案就像突觸和神經(jīng)元。

那天他突然意識到，他們正在做的事情將超越機器翻譯。

最終就像人腦一樣，將所有語音、視覺等所有模態(tài)統(tǒng)一在一個架構(gòu)下。

沙哥則在應(yīng)用方向上有驚人的遠見，論文發(fā)表前后就給谷歌高管去了一封信。

他提議公司放棄整個搜索索引，并用Transformer架構(gòu)訓(xùn)練一個巨大的神經(jīng)網(wǎng)絡(luò)替代，基本上是在建議谷歌改變整個信息組織的方式。

當時團隊里凱哥都還認為這個想法很荒謬。但如今看來，谷歌正在朝這個方向努力，只是個時間問題了。

烏茲哥后來復(fù)盤，在2019年或者2020年谷歌就有機會推出GPT-3，甚至是GPT-3.5等級的模型，還發(fā)出靈魂提問：

我們看到了可能性，但為什么不采取行動呢？

結(jié)果卻是對手OpenAI的首席科學(xué)家Ilya Sutskever在論文發(fā)表當天就意識到“它給了我們想要的一切”，并建議同事Alec Radford開始動手研究。

Radford先開發(fā)了GPT的原型，然后OpenAI調(diào)動更多人從機器人、DOTA游戲等項目轉(zhuǎn)型，參與進來開發(fā)了GPT-1、GPT-2……這就是另外一個故事了。

打造一種能同時在數(shù)據(jù)和算力上擴展的模型，是Transformer架構(gòu)的出發(fā)點，也是其成功的關(guān)鍵。

但少了頂層設(shè)計和推動，谷歌也就只能止步于此，單靠員工自發(fā)已經(jīng)無法組織起滿足Scaling Law發(fā)展下去需要的人力物力財力。

OpenAI的組織形態(tài)既有自下而上的靈活、又有自上而下的專注，能在這條路上走的更遠幾乎是不可避免的。

OpenAI CEO奧特曼曾評價，谷歌高層當時似乎沒人認識到Transformer真正意味著什么。

如今8位作者也陸陸續(xù)續(xù)從谷歌離職，既然公司遲遲不肯用Transformer搞事情，那就自己去搞。

除了最早離開的菠蘿哥的區(qū)塊鏈公司之外，其它成員的的去向都和Transformer相關(guān)。

2019年，實習(xí)生割麥子畢業(yè)沒多久，就先帶頭創(chuàng)辦Cohere，為企業(yè)提供大模型解決方案，目前估值22億美元。

2021年開始，成員集中出走。

瓦斯哥和帕姐先后攜手創(chuàng)辦Adept AI（估值10億美元）、Essential AI（融資800萬美元），都是自動化工作流程方向。

沙哥創(chuàng)辦AI角色扮演聊天平臺Character.AI，現(xiàn)在估值約50億美元，用戶活躍度和留存率比OpenAI都高。

烏茲哥回到德國創(chuàng)辦的生物AI技術(shù)公司Inceptive，估值3億美元。甚至烏茲哥透露，他的計算語言學(xué)家老父親也在籌辦一家新的AI公司，同樣基于Transformer。

只有凱哥沒有創(chuàng)業(yè)，2021年他加入了OpenAI，后來參與了GPT-4，以及Q*項目。

最后離開的是囧哥，23年他到日本創(chuàng)辦的Sakana AI估值2億美元，最新成果是用擅長不同領(lǐng)域的大模型融合，結(jié)合進化算法，搞出更強的模型。

……

許多谷歌老員工批評谷歌慢慢從一個以創(chuàng)新為中心的游樂場，轉(zhuǎn)變?yōu)橐粋€注重利潤的官僚機構(gòu)。

甚至在2020年，谷歌Meena聊天機器人發(fā)布后，沙哥又發(fā)了一封內(nèi)部信“Meena吞噬世界”，其中的關(guān)鍵結(jié)論是：

語言模型將以各種方式越來越多地融入我們的生活，并且將在全球算力中占主導(dǎo)地位。

這太有前瞻性了，幾乎準確預(yù)言了后來ChatGPT時代發(fā)生的事，也就是現(xiàn)在進行時。

但當時谷歌高層仍舊不為所動，關(guān)鍵決策者忽略甚至嘲笑他。

谷歌曾擁有整個AI王國的所有鑰匙，卻弄丟了鑰匙鏈。

責任編輯：張燕妮來源：量子位

模型數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營