LLM合集:微軟發(fā)布基于過程的自獎勵方法顯著提升數(shù)學推理性能
1. Process-based Self-Rewarding Language Models
大型語言模型在各類下游任務中表現(xiàn)都很不錯,現(xiàn)在已經(jīng)在好多場景里廣泛應用了。我們通過用人類標注的偏好數(shù)據(jù)訓練語言模型,讓它性能得到了進一步提升。不過,這種性能是受限于人類能力上限的。
為了突破這個限制,有人提出了自獎勵方法,就是讓語言模型自己給自己輸出的內(nèi)容獎勵,然后用這些獎勵數(shù)據(jù)來訓練。但現(xiàn)在已有的自獎勵方法在數(shù)學推理場景中不太好用,弄不好還會讓模型性能變差。
在本文里,我們提出了一種基于過程的自獎勵流程。這個流程有長時間思考推理、用分步式語言模型當裁判,還有分步式偏好優(yōu)化這些新做法。通過這種新范式,經(jīng)過一輪輪基于過程的自獎勵,語言模型在好幾個數(shù)學推理基準測試中的性能都提高了。這就表明自獎勵方法潛力巨大,有望讓語言模型的推理能力超越人類。
論文: ??https://arxiv.org/pdf/2503.03746??
2. ABC: Achieving Better Control of Multimodal Embeddings using VLMs
視覺嵌入模型在零樣本任務里,像視覺檢索和分類這些方面,效果還挺不錯。但要是碰到那種不太明確、或者需要按用戶指令來做的任務,它就不行了。這種任務得靠多模態(tài)嵌入模型,它能把視覺和自然語言輸入結(jié)合起來,輸出一種融合的嵌入。
現(xiàn)在那些基于 CLIP 的方法,都是把圖像和文本分開來做嵌入,完了再把結(jié)果湊一塊兒。我們發(fā)現(xiàn)這么搞,圖像和文本這兩種模態(tài)之間沒啥深度互動,而且用戶對最終呈現(xiàn)效果也不好控制。
所以我們提出了 ABC,這是個開源的多模態(tài)嵌入模型。它用視覺語言模型做主干,能把圖像特征和自然語言指令深度融合在一起。在 MSCOCO 圖像到文本檢索這個任務里,ABC 的表現(xiàn)那是最好的,在大規(guī)模多模態(tài)嵌入基準里的分類和 VQA 任務中,也都拔得頭籌。因為 ABC 能把視覺和語言統(tǒng)一起來表示,所以能用自然語言去解決那些不太好把握、可能有點模糊的視覺檢索問題。
為了看看 ABC 這方面的能力到底咋樣,我們專門設(shè)計了 CtrlBench 基準,這個基準要求把文本指令和圖像內(nèi)容交叉起來,才能實現(xiàn)正確檢索。ABC 通過提供高質(zhì)量的呈現(xiàn)效果,還有靈活的自然語言控制,讓多模態(tài)嵌入技術(shù)往前邁了一步。我們的模型和數(shù)據(jù)集在項目頁面就能找到。
論文: ??https://arxiv.org/pdf/2503.00329??
3. HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs
大型語言模型(LLMs)有個毛病,老是會說些不實的話。它給出的回答里,事實和假話混在一起,這可把人難住了,想驗證這些信息、根據(jù)它們準確做決策,太不容易。
為了解決這個問題,我們提出了 Highlighted Chain-of-Thought Prompting(HoT)技術(shù)。用這技術(shù),就要求大型語言模型給出帶 XML 標簽的回答,得把事實和查詢里給的內(nèi)容對應上。簡單講,要是給它一個問題,大型語言模型先得重新整理下問題,添上 XML 標簽,把關(guān)鍵事實標出來,然后再給出回答,回答里得把輸入里提到的事實突出顯示。
有意思的是,在只給少量示例的情況下,HoT 在 17 種不同任務里,像算術(shù)、閱讀理解、邏輯推理這些,表現(xiàn)都比普通的鏈式思維提示(CoT)要好。讓人們?nèi)ヲ炞C大型語言模型的回答時,那些標出來的內(nèi)容能幫時間緊張的人更準確、更高效地判斷模型回答得對不對。
論文: ??https://arxiv.org/pdf/2503.02003??
4. Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers
大語言模型(LLM)對自然語言處理(NLP)來說,那改變可太大了。不過現(xiàn)在開源的多語言 LLM 特別少,現(xiàn)有的那些,在語言覆蓋范圍上都有局限。這些模型一般都更重視那些資源多的語言,像一些用得很廣泛,但相關(guān)資源不太夠的語言,常常就被忽略了。
為了補上這個短板,我們提出了 Babel,這是個開源的多語言 LLM。它涵蓋了全球使用人數(shù)最多的前 25 種語言,能服務全球 90% 以上的人,而且好多其他開源多語言 LLM 沒涉及的語言,它也包括了。和以前那種連續(xù)預訓練的方法不一樣,Babel 通過層擴展技術(shù),增加了模型的參數(shù)數(shù)量,這樣就能把 Babel 的性能上限提高。
我們發(fā)布了兩個不同版本:Babel - 9B,設(shè)計的時候就考慮到推理和微調(diào)要高效;還有 Babel - 83B,它給開源多語言 LLM 樹立了新標桿。經(jīng)過在多語言任務上的大量測試,發(fā)現(xiàn) Babel 的性能比同樣規(guī)模的開源 LLM 都要好。而且,用開源的監(jiān)督微調(diào)數(shù)據(jù)集,Babel 也取得了很不錯的成績。Babel - 9B - Chat 在 100 億規(guī)模的 LLM 里,排名很靠前;Babel - 83B - Chat 更是在多語言任務上做到了頂尖水平,和那些商業(yè)模型都能一較高下。
論文: ???https://arxiv.org/pdf/2503.00865??
本文轉(zhuǎn)載自??AI-PaperDaily??
