不做數(shù)值運(yùn)算、純靠嘴炮也能機(jī)器學(xué)習(xí)?基于自然語(yǔ)言的全新ML范式來(lái)了
本文作者肖鎮(zhèn)中是德國(guó)馬克思普朗克-智能系統(tǒng)研究所和圖賓根大學(xué)的博士生,Robert Bamler 是圖賓根大學(xué)機(jī)器學(xué)習(xí)方向的教授,Bernhard Sch?lkopf 是馬克思普朗克-智能系統(tǒng)研究所的所長(zhǎng),劉威楊是馬普所劍橋大學(xué)聯(lián)合項(xiàng)目的研究員。
論文地址:https://arxiv.org/abs/2406.04344
在傳統(tǒng)的機(jī)器學(xué)習(xí)場(chǎng)景如分類和回歸問(wèn)題中,給定訓(xùn)練數(shù)據(jù),我們通過(guò)優(yōu)化參數(shù)
學(xué)到一個(gè)函數(shù)模型
來(lái)準(zhǔn)確描述訓(xùn)練集和測(cè)試集中
和
的關(guān)系。其中
是基于數(shù)值的函數(shù),它的參數(shù)
通常是連續(xù)空間中的數(shù)值向量或矩陣,優(yōu)化算法通過(guò)計(jì)算數(shù)值梯度迭代更新
從而達(dá)到學(xué)習(xí)的效果。
與其用數(shù)值,我們是否能用自然語(yǔ)言來(lái)表示一個(gè)模型?這種基于自然語(yǔ)言的非數(shù)值模型又該如何做推理和訓(xùn)練?
Verbalized Machine Learning (VML;言語(yǔ)化的機(jī)器學(xué)習(xí)) 回答了這些問(wèn)題,并提出了一種基于自然語(yǔ)言的機(jī)器學(xué)習(xí)全新范式。VML 把大語(yǔ)言模型 (LLM) 當(dāng)作自然語(yǔ)言空間中的通用近似函數(shù) (universial function approximator),數(shù)據(jù)
和參數(shù)
都是自然語(yǔ)言空間中的字符串。在做推理時(shí),我們可以將給定的輸入數(shù)據(jù)
和參數(shù)
提交給 LLM,LLM 的回答就是推理的答案
。
對(duì)于任意任務(wù)和數(shù)據(jù),我們?nèi)绾蔚玫?img src="https://s9.51cto.com/oss/202406/21/98c63ee106c2b8e9fb22129f33826cd2fccd99.webp" alt="圖片" title="圖片" style="visibility: visible; width: 54px;" data-type="inline">?在基于數(shù)值的傳統(tǒng)機(jī)器學(xué)習(xí)中,我們通過(guò)計(jì)算損失函數(shù)的梯度,將現(xiàn)有的模型參數(shù)往損失下降的方向更新,從而得到
的優(yōu)化函數(shù):
其中和
分別為學(xué)習(xí)率和損失函數(shù)。
在 VML 的設(shè)定中,由于數(shù)據(jù)和參數(shù)
都是字符串且 LLM 被當(dāng)作是黑箱的推理引擎,所以我們無(wú)法通過(guò)數(shù)值計(jì)算來(lái)優(yōu)化
。但既然我們已經(jīng)將 LLM 用作自然語(yǔ)言空間中的通用近似函數(shù)去近似模型函數(shù),而
的優(yōu)化器
也是一個(gè)函數(shù),我們?yōu)楹尾灰灿?LLM 去近似它?因此,言語(yǔ)化的
優(yōu)化函數(shù)可寫作
其中為一個(gè)數(shù)量為
的批次的訓(xùn)練數(shù)據(jù)和模型預(yù)測(cè)結(jié)果,
為優(yōu)化函數(shù)的參數(shù)(同為自然語(yǔ)言)。
圖 1:VML 的訓(xùn)練算法。
圖 2:VML 中模型和優(yōu)化器的自然語(yǔ)言模版樣例。
圖 1 顯示了 VML 的完整算法??梢钥匆娖涓鷤鹘y(tǒng)機(jī)器學(xué)習(xí)算法基本相同,唯一的區(qū)別是數(shù)據(jù)和參數(shù)是在自然語(yǔ)言空間里的字符串, 以及模型和優(yōu)化器
都是通過(guò) LLM 在自然語(yǔ)言空間中進(jìn)行推理。圖 2 為回歸任務(wù)中模型
和優(yōu)化器
的具體模板樣例。
跟傳統(tǒng)機(jī)器學(xué)習(xí)比,VML 的優(yōu)勢(shì)包括:(1)用自然語(yǔ)言簡(jiǎn)單的描述就可以對(duì)模型加入歸納偏置 (inductive bias);(2)由于不需要預(yù)設(shè)模型的函數(shù)族 (function family),優(yōu)化器可以在訓(xùn)練過(guò)程中自動(dòng)對(duì)模型的函數(shù)族進(jìn)行選擇;(3)優(yōu)化函數(shù)對(duì)模型參數(shù)的每一步更新都會(huì)提供自然語(yǔ)言的解釋,同時(shí)模型的描述和推理也是自然語(yǔ)言且可解釋的。
實(shí)驗(yàn)展示
多項(xiàng)式回歸
如圖 3 所示,模型的初始參數(shù)為線性回歸的定義。在第一步優(yōu)化時(shí),優(yōu)化器說(shuō)它發(fā)現(xiàn)
比
有更大的值域,且它們似乎存在正相關(guān)性,所以它決定將模型更新為簡(jiǎn)單的線性回歸模型。
在第二步優(yōu)化時(shí),優(yōu)化器說(shuō)當(dāng)前模型的不良表現(xiàn)讓它意識(shí)到線性模型的假設(shè)過(guò)于簡(jiǎn)單了,同時(shí)它發(fā)現(xiàn)和
之間存在非線性關(guān)系, 因此它決定將模型更新為二次函數(shù)。
第三步優(yōu)化時(shí),優(yōu)化器的關(guān)注點(diǎn)從函數(shù)族選擇轉(zhuǎn)換成二次函數(shù)的參數(shù)修改。最終模型學(xué)到了真實(shí)函數(shù)很接近的結(jié)果。
圖 3: VML 在多項(xiàng)式回歸任務(wù)中的訓(xùn)練過(guò)程記錄。
非線性二維平面分類
如圖 4 所示,模型的初始參數(shù)為二維平面二分類的定義,同時(shí)用了一句話「決策邊界是個(gè)圓」加入歸納偏置。在第一步優(yōu)化中,優(yōu)化器說(shuō)它基于提供的先驗(yàn),將模型更新為了一個(gè)圓方程。接下來(lái)的優(yōu)化步驟中,優(yōu)化器都在根據(jù)訓(xùn)練數(shù)據(jù)調(diào)整圓方程的圓心和半徑。直到第四十一步,優(yōu)化器說(shuō)當(dāng)前模型似乎擬合得很好了,于是停止了對(duì)模型的更新。
同時(shí),我們也可以看見在不加歸納偏置的情況下,VML 也能學(xué)到一個(gè)基于決策樹的不錯(cuò)的模型,但相比之下訓(xùn)練損失的波動(dòng)更大。
圖 4: VML 在非線性二維平面分類任務(wù)中的訓(xùn)練過(guò)程記錄。
醫(yī)療圖像二分類
如果大模型接受多模態(tài)輸入,如圖片和文字,那 VML 也可以用在圖片任務(wù)上。這個(gè)實(shí)驗(yàn)中,我們使用了 GPT-4o 和 PneumoniaMNIST 數(shù)據(jù)集,做了一個(gè) X 光片肺炎檢測(cè)的任務(wù)。
如圖 5 所示,我們初始化了兩個(gè)模型,模型的初始參數(shù)都為圖片二分類的定義, 但其中一個(gè)添加了一句話「輸入是用于肺炎檢測(cè)的 X 光圖片」的歸納偏置作為先驗(yàn)。在訓(xùn)練了五十步后,兩個(gè)模型都達(dá)到了 75% 左右的準(zhǔn)確度,其中有先驗(yàn)的模型準(zhǔn)確度要稍微高一點(diǎn)點(diǎn)。
仔細(xì)觀察第五十步后的模型參數(shù),我們可以看到加了歸納偏置的模型描述中包含了很多與肺炎相關(guān)的醫(yī)學(xué)詞匯,比如「感染」、「發(fā)炎」;而沒(méi)有加歸納偏置的模型描述中只有對(duì)肺部 X 光片的特征描述,比如「透明度」、「對(duì)稱」。
同時(shí),這些模型所學(xué)到的描述,都是可以被具備專業(yè)知識(shí)的醫(yī)生驗(yàn)證的。這種可解釋和人工檢驗(yàn)的機(jī)器學(xué)習(xí)模型在以安全為重的醫(yī)療場(chǎng)景下十分有價(jià)值。
圖 5: VML 在 PneumoniaMNIST 圖片二分類上的訓(xùn)練記錄。
結(jié)語(yǔ)
該文章介紹了一種基于大語(yǔ)言模型的機(jī)器學(xué)習(xí)新范式 Verbalized Machine Learning (VML; 言語(yǔ)化的機(jī)器學(xué)習(xí)),并在回歸和分類任務(wù)上展示了 VML 的有效性和可解釋性的特點(diǎn)。