442個作者100頁論文!谷歌耗時2年發(fā)布大模型新基準(zhǔn)BIG-Bench
一篇AI論文,442個作者。
其中還專門留了一章節(jié)寫作者貢獻(xiàn)。
100頁里超過一半都是參考文獻(xiàn)……
不是,現(xiàn)在都流行這樣式兒的論文嗎?
這不,谷歌最新發(fā)布的論文——Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models。
于是作者那一欄就變成了這樣……
來自132個機(jī)構(gòu)的研究學(xué)者,耗時兩年提出了一個大語言模型新基準(zhǔn)BIG-bench。
并在此基礎(chǔ)上評估了OpenAI的GPT模型,Google-internal dense transformer架構(gòu)等,模型規(guī)模橫6個數(shù)量級。
最終結(jié)果顯示,模型性能雖然隨著規(guī)模的擴(kuò)大而提高,但跟人類的表現(xiàn)相差還很遠(yuǎn)。
對于這項工作,Jeff Dean轉(zhuǎn)發(fā)點贊:Great Work。
大語言模型新基準(zhǔn)
來康康這篇論文究竟說了什么。
隨著規(guī)模的擴(kuò)大,模型的性能和質(zhì)量都有一定的改進(jìn),這當(dāng)中可能還存在一些變革性影響,但這些性能此前都沒有很好的描述。
現(xiàn)存的一些基準(zhǔn)都有一定的局限性,評估范圍比較狹窄,性能分?jǐn)?shù)迅速達(dá)到飽和。
比如SuperGLUE,在該基準(zhǔn)推出后的18個月內(nèi),模型就實現(xiàn)了“超過人類水平”的性能。
基于這樣的背景,BIG-bench就誕生了。
目前它由204個任務(wù)組成,內(nèi)容涵蓋語言學(xué)、兒童發(fā)展、數(shù)學(xué)、常識推理、生物學(xué)、物理學(xué)、社會偏見、軟件開發(fā)等方面的問題。
此外還有個人類專家評審團(tuán),也執(zhí)行了所有任務(wù),以提供基線水平。
為了方便更多機(jī)構(gòu)使用,研究人員還給出了BIG-bench Lite,一個小型但有代表性的任務(wù)子集,方便更快地評估。
以及開源了實現(xiàn)基準(zhǔn)API的代碼,支持在公開可用的模型上進(jìn)行任務(wù)評估,以及新任務(wù)的輕量級創(chuàng)建。
最終評估結(jié)果可以看到,規(guī)模橫跨六個數(shù)量級,BIG-bench上的總體性能隨著模型規(guī)模的擴(kuò)大、訓(xùn)練樣本數(shù)量的增加而提高。
但跟人類基線水平相比,還是表現(xiàn)得比較差。
具體在一些任務(wù)上,模型性能會隨著規(guī)模的增加而平穩(wěn)地提高。但有時候,會在特定規(guī)模上突然出現(xiàn)突破性表現(xiàn)。
此外,它還可以評估模型存在的社會偏見。
此外,他們還意外發(fā)現(xiàn)模型還可以get一些隱藏技能。比如,如何在國際象棋中合乎規(guī)則的移動。
作者貢獻(xiàn)寫了14頁
值得一提的是,可能因為作者過多,論文最后還專門留了一章寫作者貢獻(xiàn)。
洋洋灑灑的寫了14頁,其中包括核心貢獻(xiàn)者、Review的、提供任務(wù)的……
剩下的,還有50頁的參考文獻(xiàn)。
好了,感興趣的旁友可戳下方鏈接康康論文。
論文鏈接:
https://arxiv.org/abs/2206.04615
GitHub鏈接:
https://github.com/google/BIG-bench
參考鏈接:
https://twitter.com/jaschasd/status/1535055886913220608