當(dāng)大模型遇到了傳統(tǒng)機(jī)器學(xué)習(xí),是生搬硬湊? 原創(chuàng)
前面我們通過(guò)LLM+向量數(shù)據(jù)庫(kù)搭建了RAG,然后又將LLM和外部組件協(xié)作構(gòu)建了Agent。
LLM作為AI的一個(gè)細(xì)分領(lǐng)域,LLM+也和AI+一樣正在重塑各行業(yè)。
今天,我們來(lái)看看LLM和傳統(tǒng)機(jī)器學(xué)習(xí)能碰撞出什么火花。
我們都知道,機(jī)器學(xué)習(xí)模型擅長(zhǎng)從數(shù)據(jù)中發(fā)掘潛在模式,大語(yǔ)言模型擅長(zhǎng)自然語(yǔ)言理解與生成。
但傳統(tǒng)機(jī)器學(xué)習(xí)算法依賴人的經(jīng)驗(yàn)去做特征工程,模型選擇,調(diào)參等。那能否借助LLM的理解和生成能力去彌補(bǔ)傳統(tǒng)機(jī)器學(xué)習(xí)的不足呢?這種融合新范式能否實(shí)現(xiàn)1+1>2?
先介紹一個(gè)工具Pecan,Pecan是一個(gè)基于LLM和機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)預(yù)測(cè)的平臺(tái),然后通過(guò)一個(gè)用戶購(gòu)買可能性的示例來(lái)展示LLM和ML融合的潛在能力。
第一步,需求分析
首先會(huì)有一個(gè)LLM助手與你溝通,目的是明確需求,根據(jù)需求確定任務(wù)類型。
目前Pecan中支持二分類、多分類和線性回歸任務(wù),Pecan會(huì)根據(jù)你的需求自動(dòng)選擇分類模型還是回歸模型。
Pecan的第一個(gè)問(wèn)題是:你想預(yù)測(cè)什么?
假設(shè)我是一個(gè)電商,我想預(yù)測(cè)用戶是否會(huì)再次購(gòu)買我的商品。
此時(shí),Pecan會(huì)進(jìn)一步細(xì)分需求,例如,確認(rèn)目標(biāo)群體、預(yù)測(cè)周期以及觸發(fā)機(jī)制等。
例如,我想預(yù)測(cè)一個(gè)用戶購(gòu)買商品后在下一個(gè)月是否還會(huì)再次購(gòu)買,如果沒有,我將會(huì)采取一些激勵(lì)措施,例如,發(fā)放優(yōu)惠券等等。
第二步,數(shù)據(jù)集成
當(dāng)Pecan明確我的需求后,會(huì)要求你上傳數(shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行初步分析。
當(dāng)我上傳歷史交易數(shù)據(jù)csv文件后,Pecan會(huì)識(shí)別出列的名稱和類型,并根據(jù)需求識(shí)別交易日期和客戶ID這兩個(gè)關(guān)鍵列。
第三步,數(shù)據(jù)預(yù)處理
Pecan基于前面的需求描述和數(shù)據(jù),生成一個(gè)notebook,里面是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的SQL語(yǔ)言,
首先會(huì)對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理,例如,補(bǔ)全,清理,相關(guān)性分析等等。
然后,根據(jù)用戶購(gòu)買時(shí)間,去搜索下個(gè)月的銷售記錄,以此判斷該用戶是否再次購(gòu)買,如果購(gòu)買了,則該數(shù)據(jù)的標(biāo)簽為True,否則標(biāo)簽為False。
最終將用戶特征和標(biāo)簽組織成機(jī)器學(xué)習(xí)模型可識(shí)別的訓(xùn)練數(shù)據(jù)。
在此過(guò)程中,如果對(duì)SQL代碼不理解,還可以讓AI幫你解釋一下。
第四步,模型訓(xùn)練和預(yù)測(cè)
Pecan會(huì)訓(xùn)練多個(gè)模型,然后選擇性能最好的。
這個(gè)過(guò)程中數(shù)據(jù)預(yù)處理,特征工程,模型選擇都是幾乎是通過(guò)自然語(yǔ)言完成的,而不需要過(guò)多的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)經(jīng)驗(yàn)。
每一次顛覆性技術(shù)的出現(xiàn),對(duì)人類社會(huì)的思想沖擊都很大,本文的目的不是介紹某個(gè)工具,而是向大家傳送一個(gè)概念,那就是AI正在重塑各行業(yè),讓我們理解當(dāng)下時(shí)代,擁抱AI,擁抱變革。
本文轉(zhuǎn)載自公眾號(hào)人工智能大講堂
