OpenAI新模型研發(fā)遇挫,稀疏性是大模型降本的鑰匙嗎?
大模型的訓(xùn)練與運(yùn)行成本極其高昂,OpenAI 也嘗試過降低成本,只可惜失敗了。
去年年底,當(dāng) ChatGPT 引起全球轟動時,OpenAI 的工程師開始研究一種新的人工智能模型,代號為 Arrakis。Arrakis 旨在讓 OpenAI 能夠以更低的成本運(yùn)行聊天機(jī)器人。
但據(jù)知情人士透露:2023 年年中,OpenAI 已經(jīng)取消了 Arrakis 的發(fā)布,因為該模型的運(yùn)行效率沒有公司預(yù)期的那么高。
這次失敗意味著 OpenAI 失去了寶貴的時間,并需要將資源轉(zhuǎn)移到開發(fā)不同的模型上。
對合作投資來說,Arrakis 的研發(fā)計劃對于兩家公司完成 100 億美元投資和產(chǎn)品交易的談判非常有價值。據(jù)一位知情的微軟員工透露,Arrakis 的失敗讓微軟的一些高管感到失望。
更重要的是,Arrakis 的失敗預(yù)示著人工智能的未來發(fā)展可能會充滿難以預(yù)測的陷阱。
Arrakis 是個什么樣的模型?
知情人士稱,OpenAI 希望 Arrakis 是一個與 GPT-4 性能相當(dāng),且運(yùn)行效率更高的模型。Arrakis 模型用到的關(guān)鍵方法是利用稀疏性。
稀疏性是谷歌等其他人工智能開發(fā)商也公開討論并使用的機(jī)器學(xué)習(xí)概念。谷歌高管 Jeff Dean 曾表示:「稀疏計算將成為未來的一個重要趨勢。」
OpenAI 很早就開始了關(guān)于稀疏性的研究,早在 2017 年他們就推出了稀疏計算內(nèi)核。Arrakis 本來可以讓 OpenAI 更廣泛地推廣其技術(shù),因為該公司可以使用數(shù)量有限的專用服務(wù)器芯片來為其軟件提供支持。
當(dāng)前,增加稀疏性的一種常見方法是借助「混合專家系統(tǒng)(MoE)」技術(shù)。然而,加州大學(xué)伯克利分校計算機(jī)科學(xué)教授 Ion Stoica 曾表示:「一般來說,專家模型的數(shù)量越多,模型就越稀疏,效率也越高,但可能會導(dǎo)致模型生成的結(jié)果不太準(zhǔn)確。」
大約在今年春天,OpenAI 的研究人員開始訓(xùn)練 Arrakis 模型,其中涉及使用先進(jìn)的計算硬件來幫助模型處理大量數(shù)據(jù)。知情人士稱,該公司預(yù)計訓(xùn)練 Arrakis 比訓(xùn)練 GPT-4 要便宜得多。然而,研究團(tuán)隊很快就意識到該模型的表現(xiàn)不夠好,無法獲得預(yù)期的增益。研究團(tuán)隊花了大約一個月的時間試圖解決問題后,OpenAI 的高層領(lǐng)導(dǎo)決定停止訓(xùn)練該模型。
值得欣慰的是,OpenAI 可以將其在 Arrakis 上的工作整合到其他模型中,例如即將推出的多模態(tài)大模型 Gobi。
兩位知情人士表示,Arrakis 的表現(xiàn)之所以低于 OpenAI 的預(yù)期,是因為該公司試圖提高模型的稀疏性,這意味著將只使用模型的一部分來生成響應(yīng),從而降低運(yùn)行成本。該模型在早期測試中有效但后來表現(xiàn)不佳的原因尚不清楚。
值得一提的是,有知情人士稱 OpenAI 曾為 Arrakis 考慮的公開名稱是 GPT-4 Turbo。
降低成本有多重要?
對于 OpenAI 來說,隨著人們對技術(shù)成本的擔(dān)憂日益增加以及開源替代方案的激增,使其模型更便宜、更高效是首要任務(wù)。
據(jù)知情人士稱,微軟使用 OpenAI 的 GPT 模型為 Office 365 應(yīng)用程序和其他服務(wù)中的人工智能功能提供支持,并且微軟原本預(yù)計 Arrakis 能夠提高這些功能的性能并降低成本。
與此同時,微軟開始研發(fā)自己的 LLM,并且其 LLM 的運(yùn)行成本可能比 OpenAI 的模型更低。
盡管這場挫折并沒有減緩 OpenAI 今年的業(yè)務(wù)發(fā)展,但隨著 LLM 領(lǐng)域的競爭日益加劇,特別是谷歌、微軟等科技巨頭的加速研發(fā),OpenAI 也有可能在這條賽道上式微。