英偉達和微軟發(fā)布新的小語言模型
英偉達近日發(fā)布了一款輕量級語言模型Mistral-NeMo-Minitron 8B,該模型在一系列任務中的表現(xiàn)均優(yōu)于同等規(guī)模的神經網(wǎng)絡。
該模型的代碼以開源許可的形式發(fā)布在Hugging Face網(wǎng)站上。該模型發(fā)布的前一天,微軟剛剛推出了幾個自己的開源語言模型。與英偉達的新算法一樣,這些新模型也是為了在處理能力有限的設備上運行而設計的。
Mistral-NeMo-Minitron 8B是英偉達上個月推出的Mistral NeMo 12B語言模型的縮小版。后者是與Mistral AI SAS合作開發(fā)的算法,Mistral AI SAS是一家人工智能初創(chuàng)公司,已經募集了大量的資金。英偉達利用了兩種名為“剪枝”和“提煉”的機器學習技術創(chuàng)建了Mistral-NeMo-Minitron 8B。
“剪枝”是一種通過刪除代碼庫中不必要的組件來降低模型硬件要求的方法。神經網(wǎng)絡由無數(shù)個人工神經元組成,每個人工神經元的代碼片段都能執(zhí)行一組相對簡單的計算。其中一些代碼片段在處理用戶請求時發(fā)揮的作用不如其他代碼片段活躍,這意味著可以在不顯著降低人工智能輸出質量的情況下刪除這些代碼片段。
在對 Mistral NeMo 12B進行“剪枝”后,英偉達進入了該項目的所謂“提煉”階段?!疤釤挕笔枪こ處煂⑷斯ぶ悄苤R轉移到另一個硬件效率更高的神經網(wǎng)絡的過程。在這種情況下,第二個模型就是今天亮相的Mistral-NeMo-Minitron 8B,它比原來的模型少了40億個參數(shù)。
開發(fā)人員還可以通過從頭開始訓練一個全新的模型來降低人工智能項目的硬件要求。與這種方法相比,“提煉”有幾個優(yōu)勢,尤其是能提高人工智能的輸出質量。將大型模型“提煉”為小型模型的成本也更低,因為這項任務不需要那么多訓練數(shù)據(jù)。
英偉達表示,在開發(fā)過程中結合使用“剪枝”和“提煉”技術顯著提高了Mistral-NeMo-Minitron 8B 的效率。英偉達的高管Kari Briski在一篇博文中介紹說,“其體積小到足以在配備了Nvidia RTX的工作站上運行,同時在人工智能支持的聊天機器人、虛擬助手、內容生成器和教育工具的多個基準測試中依然表現(xiàn)出色?!?/p>
Mistral-NeMo-Minitron 8B發(fā)布的前一天,微軟剛剛開源了自己的三個語言模型。與英偉達的新算法一樣,它們的開發(fā)也考慮到了硬件效率。
這些模型中最緊湊的名為Phi-3.5-mini-instruct。它擁有38億個參數(shù),可以處理多達 128,000個標記的數(shù)據(jù)提示,這使它能夠攝取冗長的商業(yè)文檔。微軟進行的一項基準測試表明,Phi-3.5-mini-instruct在執(zhí)行某些任務時比Llama 3.1 8B和Mistral 7B更出色,而后兩者的參數(shù)數(shù)量大約是前者的兩倍。
本周二,微軟還開源了另外兩個語言模型。第一個是Phi-3.5-vision-instruct,它是Phi-3.5-mini-instruct的一個版本,可以執(zhí)行圖像分析任務,比如解釋用戶上傳的圖表。它與Phi-3.5-MoE-instruct同時推出,后者是一個更大的模型,擁有608億個參數(shù)。當用戶輸入提示時,只有十分之一的參數(shù)會激活,這大大減少了推理所需的硬件數(shù)量。