能與 GPT-3 相媲美?EleutherAI 開源 GPT-J
2020 年,微軟與 OpenAI 達成了協(xié)議,微軟將擁有對 GPT-3 源代碼的獨家訪問權,自此 OpenAI 就不像以往一樣開放其 GPT-3 AI 模型,而 OpenAI 的 GPT-1 和 GPT-2 仍然是開源項目。
為了打破 OpenAI 和微軟對自然語言處理 AI 模型的壟斷,Connor Leahy、Leo Gao 和 Sid Black 創(chuàng)立了 EleutherAI,這是一個專注于人工智能對齊、擴展和開源人工智能研究的組織。近日 EleutherAI 研究團隊開源了一個基于 GPT-3 的自然語言處理 AI 模型 GPT-J。
GPT-J 是一個基于 GPT-3,由 60 億個參數(shù)組成的自然語言處理 AI 模型。該模型在一個 800GB 的開源文本數(shù)據(jù)集上進行訓練,并且能夠與類似規(guī)模的 GPT-3 模型相媲美。
該模型通過利用 Google Cloud 的 v3-256 TPU 以及 EleutherAI 的 The Pile 數(shù)據(jù)集進行訓練的,歷時大約五周時間。GPT-J 在標準 NLP 基準工作負載上實現(xiàn)了與 OpenAI 報告的 67 億參數(shù)版本的 GPT-3 類似的準確性。模型代碼、預訓練的權重文件、Colab 文檔和一個演示網(wǎng)頁都包含在 EleutherAI 的開源項目中。
EleutherAI 在 2021 年 3 月發(fā)布了 27 億參數(shù)的 GPT-Neo 模型,這是他們對類 GPT 系統(tǒng)的第一個實現(xiàn)。GPT-Neo 是在 TensorFlow 中構建的,并通過 Mesh TensorFlow 并行庫在 TPU 上訓練。該團隊目前還正在開發(fā) GPT-NeoX,這是一個基于微軟 DeepSpeed 的 GPU 解決方案;雖然代碼是開源的,但目前沒有模型文件可以訪問。
最新的模型 GPT-J 是用 Mesh-Transformer-JAX 這個新庫來訓練的。該庫沒有使用像 TensorFlow 這樣的特定深度學習框架,而是使用 Google 的 JAX 線性代數(shù)框架。GPT-J 提供了比 Tensorflow 更靈活、更快速的推理,該模型的開發(fā)時間遠遠少于早期的舉措。與 GPT-Neo 模型相比,GPT-J 的訓練效率提高了 125%。在幾個 Down-Streaming 工作負載的零點性能方面,GPT-J 是公開的 Transformer LM 中表現(xiàn)最好的。
EleutherAI 的開發(fā)者 Komatsuzaki 表示:“與 TensorFlow 和 TPU 的同類產(chǎn)品相比,它允許更靈活、更快速的推理。更重要的是,該項目需要的時間大大少于其他大規(guī)模模型。研究表明,JAX + xmap + TPU 是快速大規(guī)模模型開發(fā)的完美工具集合。”
開發(fā)者可以在 GitHub 上找到 GPT-J 的源代碼和模型,并能在 EleutherAI 的官方網(wǎng)站上找到互動演示。
本文轉(zhuǎn)自OSCHINA
本文標題:能與 GPT-3 相媲美?EleutherAI 開源 GPT-J
本文地址:https://www.oschina.net/news/150972/eleutherai-open-sources-gpt-j