Claude 3再次登頂!化學專業(yè)一騎絕塵,全面碾壓GPT-4
Claude 3的誕生又一次震驚了全世界。
Claude 3 Opus,Claude 3中最智能的模型,在大多數(shù)常見的人工智能系統(tǒng)評估基準測試中表現(xiàn)優(yōu)異,包括本科水平專家知識(MMLU)、研究生水平專家推理(GPQA)、基礎數(shù)學(GSM8K)等。
圖片
但在特定的專業(yè)領域,它的表現(xiàn)卻是一個未知數(shù)。
比如化學,化學在藥物發(fā)現(xiàn)和材料科學等領域發(fā)揮著至關重要的作用,但現(xiàn)有研究顯示它們在化學任務上的性能令人沮喪。
指令微調讓LLM完成化學任務成為可能
近日,一支來自OSU的團隊構建了一個專門針對化學任務指令微調的數(shù)據(jù)集,命名為SMolInstruct。
圖片
論文地址:https://arxiv.org/pdf/2402.09391.pdf
該SMolInstruct測試集涵蓋了14種任務,包括名稱轉換、屬性預測、分子描述、分子生成、正向合成和逆向合成等,這些專業(yè)任務經(jīng)過精心挑選,以建立堅實的化學基礎。
它同時包含340萬個不同的樣本和160萬個不同的分子,涵蓋了各種大小、結構和性質的化合物,展示了廣泛的化學知識覆蓋范圍。這些樣本都經(jīng)過嚴格的處理步驟,排除了有問題和低質量的樣本。
圖片
然后,他們在SMolInstruct數(shù)據(jù)集上對四個開源LLM(Galactica、Llama 2、Code Llama和Mistral)進行微調,創(chuàng)建了一系列專門用于化學任務的LLM,稱為LlaSMol。
論文中,主要將LlaSMol模型與兩種類型的模型進行比較:
- 未在SMolInstruct上進行微調的LLM
- SOTA任務特定模型
結果顯示,LlaSMol在所有任務上都顯著優(yōu)于現(xiàn)有的LLM,包括GPT-4。
例如,將SMILES轉換為分子式的準確率達到94.5%,而GPT-4僅為16.4%;對于逆合成任務,準確率達到32.9%,而GPT-4僅為0%,并接近最先進的任務特定模型SOTA。
這凸顯了SMolInstruct數(shù)據(jù)集的有效性和微調的好處。
圖片
這個結果是合理的,雖然GPT-4很強大,但它畢竟是通用模型,很難直接和經(jīng)過特定的任務及樣本微調的LlaSMol去對抗。
但經(jīng)過微調的LLM表現(xiàn)已經(jīng)逼近非LLM的任務特定模型,還是展現(xiàn)了LLM的巨大潛力。
不僅如此,四個LlaSMol模型在性能上表現(xiàn)出顯著差異,也強調出了基礎模型對下游任務的重要影響。
Claude 3在專業(yè)化學領域仍舊領先
Claude 3一經(jīng)推出,該團隊便在SMolInstruct 該基準測試上對于Claude 3 Opus同樣進行了實驗。
雖然與LlaSMol還是有差距,但在大多數(shù)任務中,Claude 3的表現(xiàn)遠遠超過GPT-4。
圖片
雖然在其中的一個名稱轉換任務S2F中,也就是一個將用于表示分子結構的文本字符串轉換為分子式去計算原子數(shù)量的任務,Claude 3要比GPT-4差得多,但大多數(shù)任務的大幅領先還是展現(xiàn)了Claude 3在專業(yè)領域學習能力上的優(yōu)越性。
Anthropic在官網(wǎng)介紹Claude 3時,用了「smarter, faster, safer」去描述大模型智能的未來潛力。
而我們在化學特定任務上,已經(jīng)可以感受到了Opus作為通用模型,學習的速度之快,能力之強。
LLM超越任務特定模型,指日可待
在SMolInstruct原論文的結尾,作者也表達了對在化學領域,LLM能夠超越任務特定模型的期許和展望。
圖片
任務特定模型畢竟是基于固定的輸入,它們被優(yōu)化以執(zhí)行其特定任務,通常在大小和復雜性上都較小,而且在跨知識共享的任務中很難有好的表現(xiàn)。
而LLM有更多的參數(shù)和模型結構,可以在學習中進化,也能快速適應新的需求。
不可否認的是,經(jīng)過微調的LLM更多的在專業(yè)領域上趕超任務特定模型,目前非常依賴于微調指令的完整性、全面性、準確性。
但若以發(fā)展的眼光來比較兩種模型,尤其是在我們已經(jīng)感受到Claude 3可怕的成長速度之后。
可以預想到,作為通用模型來設計的LLM,會在專業(yè)領域逐漸爆發(fā)。
參考資料:
https://twitter.com/hhsun1/status/1766656199083098134