自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型時代,解析周志華教授的「學(xué)件」思想:小模型也可做大事

人工智能 新聞
近來實(shí)現(xiàn)大規(guī)模應(yīng)用的大型語言模型還讓我們看到了新的可能性。

毫無疑問,我們正在進(jìn)入一個大模型時代,各種開源或閉源的大模型不斷涌現(xiàn),解決一個又一個的應(yīng)用,填補(bǔ)一個又一個的空白。而在此之前已經(jīng)有了許多「足夠好的」小模型。于是對于用戶來說,要找到合適的模型就更加困難了。

南京大學(xué)周志華教授在 2016 年提出的學(xué)件思想或許能成為這一問題解決方案。通過「模型 + 規(guī)約」構(gòu)建學(xué)件市場,用戶選擇模型有望變得像從應(yīng)用商店下載軟件一樣簡單,同時還能規(guī)避數(shù)據(jù)隱私等諸多問題。

近日,周志華團(tuán)更新了一篇有關(guān)「學(xué)件」的新論文,進(jìn)一步深化了該思想。

圖片圖片

論文鏈接:https://arxiv.org/abs/2210.03647

概括地說,計算機(jī)由硬件(hardware)和軟件(software)構(gòu)成。隨著技術(shù)的發(fā)展,硬件和軟件都在快速迭代演進(jìn),甚至讓計算機(jī)具備了被稱為「機(jī)器學(xué)習(xí)」的能力。這項(xiàng)能力能讓計算機(jī)使用高速的硬件和精妙的軟件有效發(fā)掘出大量數(shù)據(jù)中蘊(yùn)藏的模式,從而幫助其「學(xué)習(xí)」世界的運(yùn)作模式進(jìn)而完成實(shí)際任務(wù)。

近些年機(jī)器學(xué)習(xí)已經(jīng)取得了非常多堪稱改變世界級的成就,比如顛覆性的圖像生成 AI 和大型語言模型。現(xiàn)在市面上的機(jī)器學(xué)習(xí)模型已有很多,其中有商業(yè)公司提供的方便使用的產(chǎn)品,也有研究團(tuán)隊發(fā)布的開源模型,還有不同開發(fā)者和用戶針對不同任務(wù)需求優(yōu)化的專用模型。

這個紛繁復(fù)雜的模型生態(tài)卻給用戶造成了困擾:如果我有個任務(wù),想使用機(jī)器學(xué)習(xí)模型來幫助解決,我又不是 AI 專業(yè)人士,我該怎么選擇合適的模型?

實(shí)際上這個問題已經(jīng)成為普通用戶有效使用 AI 的最大阻礙 —— 要知道很多人都不知道該如何向 ChatGPT 等大型語言模型(LLM)提出正確的問題(甚至由此誕生了 prompt 工程師這一職業(yè)),更別說為自己的任務(wù)找到合適的模型了。

針對這一問題,南京大學(xué)周志華教授在 2016 年提出了一種名為「學(xué)件(learnware)」的新范式。類似于用戶獲取后便能直觀學(xué)會使用的硬件和軟件,用戶也能通過學(xué)件的形式為自己的任務(wù)找到合適的機(jī)器學(xué)習(xí)模型。

做一個簡單的類比,假如用戶想要購買一把好用的切肉刀,她可以向市場提交自己的需求,市場會根據(jù)她的需求,匹配描述最一致的商品,然后推薦給她。但這個推薦可能與她的需求并不完全匹配,比如推薦的是一把適合切瓜的刀。但這把刀也不是不能用,她可以選擇直接用來切肉或使用其它方法將其打磨一番,讓其變得更加鋒利,更適合切肉。

圖 1:學(xué)件的類比圖 1:學(xué)件的類比

周志華提出的學(xué)件模式也是類似:用戶向?qū)W件市場提交自己的需求,市場推薦合適的模型,然后用戶使用自己的數(shù)據(jù)優(yōu)化該模型,使之更適合自己的任務(wù)。

學(xué)件有什么用?

除了能幫助用戶找到適合自己任務(wù)的模型,學(xué)件還有什么用?根據(jù)周志華團(tuán)隊最新發(fā)布的相關(guān)論文《Learnware: Small Models Do Big》,學(xué)件能夠解決許多機(jī)器學(xué)習(xí)應(yīng)用問題:

缺乏訓(xùn)練數(shù)據(jù):如果模型是基于性能優(yōu)良的學(xué)件構(gòu)建的,那么即使任務(wù)僅有少量數(shù)據(jù),也依然能獲得強(qiáng)大的機(jī)器學(xué)習(xí)模型。大多數(shù)用例其實(shí)只需要少量數(shù)據(jù)來進(jìn)行適應(yīng)和精細(xì)化。

缺乏訓(xùn)練技能:如果用戶能得到性能優(yōu)良的學(xué)件的幫助,而不是自己從頭開始打造模型,那么即使缺乏訓(xùn)練技能的普通用戶也能獲得強(qiáng)大的機(jī)器學(xué)習(xí)模型。

災(zāi)難性遺忘:一旦學(xué)件市場接受了一個學(xué)件,那么它就會被永遠(yuǎn)容納在該市場中,除非其各方面功能都被其它學(xué)件替代。因此,學(xué)件市場中的舊知識始終會被保留。什么都不會被遺忘。

持續(xù)學(xué)習(xí):由于開發(fā)者會不斷提交用不同任務(wù)訓(xùn)練的表現(xiàn)良好的學(xué)件,因此學(xué)件市場能自然地實(shí)現(xiàn)持續(xù)學(xué)習(xí)和終身學(xué)習(xí);學(xué)件市場中的知識會不斷得到豐富。

數(shù)據(jù)隱私 / 專有權(quán):開發(fā)者提交模型時無需共享數(shù)據(jù),因此數(shù)據(jù)隱私 / 專有權(quán)可得到很好的保護(hù)。盡管不能完全排除對模型進(jìn)行逆向工程的可能性,但與許多其它隱私保護(hù)方案相比,學(xué)件的風(fēng)險非常小。

計劃外的任務(wù):學(xué)件市場向所有合法的開發(fā)者開放。因此,除非所有合法開發(fā)者都沒做過該任務(wù),否則市場中總是會存在有用的學(xué)件。此外,對于一些新任務(wù),就算沒有開發(fā)者專門為其構(gòu)建模型,但可以通過選擇和組裝一些現(xiàn)有的學(xué)習(xí)器來解決。

碳排放:組裝小型模型可能就足以為大多數(shù)應(yīng)用提供足夠好的性能;因此,人們可能不太有興趣訓(xùn)練太多大模型。由于能復(fù)用其他開發(fā)者的模型,所以能有助于減少重復(fù)開發(fā)。此外,就算一個模型對某位用戶來說不好用,但對另一位用戶可能會很有用。不會浪費(fèi)訓(xùn)練成本。

學(xué)件設(shè)計

下面我們具體看看周志華團(tuán)隊提出的學(xué)件設(shè)計思路。首先我們可以直觀地理解在機(jī)器學(xué)習(xí)應(yīng)用方面,存在三個重要實(shí)體:開發(fā)者、用戶和市場。

開發(fā)者通常是機(jī)器學(xué)習(xí)專家,他們所做的是生產(chǎn)出表現(xiàn)優(yōu)良的已訓(xùn)練機(jī)器學(xué)習(xí)模型并將這些模型分享或銷售出去。

用戶需要機(jī)器學(xué)習(xí)服務(wù),但通常僅有有限的數(shù)據(jù)并缺乏機(jī)器學(xué)習(xí)知識和技能。

學(xué)件市場則是從開發(fā)者那里獲取或購買表現(xiàn)優(yōu)良的已訓(xùn)練模型,讓它們進(jìn)入市場,再通過識別和復(fù)用學(xué)件來向用戶提供或銷售服務(wù),從而幫助用戶解決他們手頭的任務(wù)。其基本操作可以分為兩個階段,如圖 2 所示。

圖 2:學(xué)件市場的兩個階段圖 2:學(xué)件市場的兩個階段

提交階段

在提交階段,開發(fā)者可以自發(fā)地將訓(xùn)練好的模型提交到學(xué)件市場。市場可以通過一些機(jī)制(比如驗(yàn)證性能)來保證一定質(zhì)量,從而決定是否可以接受已提交的模型。假如一個學(xué)件市場已經(jīng)接納了數(shù)以百萬計的模型,那么新用戶應(yīng)當(dāng)采用什么方法找到可能對自己有用的模型?

我們當(dāng)然不能要求用戶將自己的數(shù)據(jù)提交到市場來試驗(yàn)?zāi)P?,因?yàn)檫@會很麻煩,而且成本很高,更嚴(yán)重的問題是這可能導(dǎo)致用戶數(shù)據(jù)泄漏。比較用戶數(shù)據(jù)和原始訓(xùn)練數(shù)據(jù)之間的相似度等簡單直接的方法也是不可行的,因?yàn)閷W(xué)件的提議考慮到了這一事實(shí):由于隱私或?qū)S袡?quán)等問題,不管是開發(fā)者還是用戶,都不愿意泄漏自己的數(shù)據(jù)。因此,周志華團(tuán)隊的設(shè)計基于這樣一個約束條件:學(xué)件市場既無法獲取開發(fā)者的原始訓(xùn)練數(shù)據(jù),也無法獲取用戶的原始數(shù)據(jù)。此外,他們還假設(shè)用戶并不是很了解市場中已有的模型。

為了應(yīng)對這一問題,周志華團(tuán)隊提出的解決方案的核心在于規(guī)約(specification)。一旦學(xué)件市場決定接受一個已提交模型,就會為該模型分配一個規(guī)約,其能以某種格式傳遞該模型的專長和用途,同時不會泄漏模型的原始訓(xùn)練數(shù)據(jù)。為了簡單起見,下面我們會使用簡單符號來表示模型的相關(guān)概念:假設(shè)模型對應(yīng)于某種函數(shù)關(guān)系,其可將輸入域 X 映射到輸出域 Y,這期間考慮的目標(biāo)為 obj;也就是說,這些模型在這個函數(shù)空間內(nèi):F : X→Y w.r.t. obj。每個模型都有一個規(guī)約。所有規(guī)約構(gòu)成一個規(guī)約空間,其中有助于完成同一任務(wù)的模型的規(guī)約彼此相近。

學(xué)件市場中存在具有不同 X 和 / 或不同 Y 和 / 或不同 obj 的不同模型。如果我們把涵蓋所有可能的函數(shù)空間中所有可能的模型的規(guī)約空間稱為規(guī)約世界(specification world),那么就能把對應(yīng)于一個可能函數(shù)空間的每個規(guī)約空間稱為一個規(guī)約島(specification island)。目前,研究者還很難設(shè)計出能覆蓋全體規(guī)約世界的簡潔優(yōu)雅的規(guī)約格式,同時還能有效且充分地識別出所有可能的模型。周志華團(tuán)隊基于實(shí)際情況,采用了以下設(shè)計。每個學(xué)件的規(guī)約都由兩部分構(gòu)成,其中第一部分解釋了該學(xué)件位于哪個規(guī)約島,第二部分則會揭示其位于島中哪個位置。

第一部分可以通過一個字符串實(shí)現(xiàn),其中包含一組描述 / 標(biāo)簽,涉及任務(wù)、輸入、輸出和目標(biāo)等情況。然后,根據(jù)用戶要求中提供的描述 / 標(biāo)簽,可以有效又準(zhǔn)確地定位相應(yīng)的規(guī)約島。一般來說,學(xué)件市場的設(shè)計者可以編寫一個初始描述 / 標(biāo)簽集合;當(dāng)市場接受一些無法歸入現(xiàn)有函數(shù)空間的新模型時,該集合還能增大,創(chuàng)建出新的函數(shù)空間及對應(yīng)的規(guī)約島。

規(guī)約島還能合并成更大的島,如圖 3 所示。原則上,如果 X 、Y 和 obj 中有共同成分,就可以合并規(guī)格島。可以想象,當(dāng)所有可能的任務(wù)都存在時,所有規(guī)約島會連接成一個非碎片化的統(tǒng)一規(guī)約世界。

圖 3:學(xué)件的規(guī)約世界圖 3:學(xué)件的規(guī)約世界

部署階段

在部署階段,用戶向?qū)W件市場提交需求,然后市場會識別并返回一些有用的學(xué)件給用戶。其中存在兩個問題:1. 如何識別滿足用戶需求的學(xué)件,2. 如何復(fù)用返回的學(xué)件。

學(xué)件市場可容納上百萬個模型。不同于之前的與模型復(fù)用或領(lǐng)域適應(yīng)有關(guān)的機(jī)器學(xué)習(xí)研究(其中假設(shè)所有預(yù)訓(xùn)練模型都會有用),可能只會有非常少部分學(xué)件對當(dāng)前用戶任務(wù)有用。不同于多任務(wù)學(xué)習(xí)(其中訓(xùn)練階段能使用這些不同任務(wù)的數(shù)據(jù))和與領(lǐng)域無關(guān)式學(xué)習(xí)(其中可以使用源域的有標(biāo)注數(shù)據(jù)),學(xué)件市場并不假設(shè)能獲得這些信息。實(shí)際上,有效辨別合適的學(xué)件是非常困難的,尤其考慮到學(xué)件市場無法獲取原始訓(xùn)練數(shù)據(jù)和當(dāng)前用戶的原始數(shù)據(jù)。

通過規(guī)約設(shè)計,學(xué)件市場可以要求用戶使用描述 / 標(biāo)簽集來描述自己的需求,這可以通過一個用戶接口或某種有待未來設(shè)計的學(xué)件描述語言實(shí)現(xiàn)。基于這些信息,用戶任務(wù)就可以簡化成如何從規(guī)約島中識別出某個有用的學(xué)件。學(xué)件市場可以在對應(yīng)于規(guī)約島的函數(shù)空間中提供一些錨學(xué)件,要求用戶測試它們并返回一些信息,然后基于這些信息識別出可能有用的學(xué)習(xí)器。

一旦找到了有用的學(xué)件并交付給用戶,用戶就能以各種方式復(fù)用它們。對照前述的類比,用戶可以直接使用這些模型,也可以用自己的數(shù)據(jù)進(jìn)一步對它們進(jìn)行優(yōu)化,使之更貼合自己的任務(wù)。

學(xué)件規(guī)約

理想情況下,學(xué)件規(guī)約應(yīng)該表達(dá) / 編碼學(xué)件市場中每個模型的重要信息,以便將來的用戶能夠有效和充分地識別它們。如前所述,周志華團(tuán)隊目前的規(guī)約設(shè)計由兩部分構(gòu)成。第一部分是一個字符串,這是學(xué)件市場基于開發(fā)者提交的信息給出的描述 / 標(biāo)簽,其目標(biāo)是定位模型所在的規(guī)約島。不同的學(xué)件市場企業(yè)可能采用不同的描述 / 標(biāo)簽。

規(guī)約的第二部分則是為了在函數(shù)空間 F : X→Y w.r.t. obj 中定位模型的位置。針對這一部分,周志華團(tuán)隊提出的方法名為 RKME(Reduced Kernel Mean Embedding / 精簡核均值嵌入),其基于 KME(核均值嵌入)的精簡集。KME 是一種強(qiáng)大的技術(shù),可將一個概率分布映射到 RKHS(再生核希爾伯特空間)中一個點(diǎn),其中精簡集在保留了表征能力的同時不會暴露原始數(shù)據(jù)。

假設(shè)開發(fā)者要提交一個基于數(shù)據(jù)集圖片訓(xùn)練的模型。一旦模型訓(xùn)練完成,可將 x_i 饋送給模型得到對應(yīng)的輸出圖片。注意,圖片是模型的輸出而非基本真值;因此數(shù)據(jù)集圖片編碼了模型的函數(shù);也就是說其提供了該模型的函數(shù)表征。注意,也可以向模型饋送 x_i 之外的其它 x 以得到更透徹的表征。周志華團(tuán)隊之前使用這一思想學(xué)習(xí)過一個相對簡單的模型,并且其性能表現(xiàn)與原始復(fù)雜模型相當(dāng)。該團(tuán)隊表示之后 Geoffrey Hinton 等提出的知識蒸餾(knowledge distillation)思想與之類似。這一思想作為基礎(chǔ),構(gòu)成了 RKME 規(guī)約的第一部分。為了簡單起見,這里令 z_i 表示圖片,并且該模型的函數(shù)編碼在 z_i 的分布中。然后,市場會通過最小化根據(jù) RKHS 范數(shù)測定的距離來生成精簡集表征:圖片其中 k (?,?) 是對應(yīng)于 RKHS 的核函數(shù),它們都由學(xué)件市場決定并會被交給開發(fā)者。解出的 (β, t) 可提供不同于原始數(shù)據(jù) z 的遠(yuǎn)遠(yuǎn)更為精簡的表征;開發(fā)者將把它們提交用作模型規(guī)約的第二部分。

在部署階段,如果用戶有很多訓(xùn)練數(shù)據(jù),市場可以幫助構(gòu)建要提交的 RKME 需求。然后,通過匹配 RKME 規(guī)約與用戶需求,市場可以識別并返回 RKHS 中范數(shù)距離最小的學(xué)件。如果有多個學(xué)件的 RKME 規(guī)約的加權(quán)組合與用戶需求的距離最小,那么市場還可以識別出多個有用的學(xué)件。如果用戶沒有足夠的訓(xùn)練數(shù)據(jù)來構(gòu)建 RKME 需求,學(xué)件市場也可以向用戶發(fā)送多個錨學(xué)件。用戶可將自己的數(shù)據(jù)輸入這些錨學(xué)件,從而生成一些信息(例如精確度和召回率或其它性能指標(biāo)),這些信息會返回市場。這些信息可幫助市場識別出潛在有用的模型,例如,通過發(fā)現(xiàn)遠(yuǎn)離錨學(xué)件的模型表現(xiàn)差,靠近錨學(xué)件的模型表現(xiàn)好,可在規(guī)約島中找到合適的模型。

學(xué)件市場的一種原型設(shè)計

為了驗(yàn)證這一思路的可行性,周志華團(tuán)隊設(shè)計了一種學(xué)件市場的原型,其用戶界面如下圖所示。

圖 4:學(xué)件市場的簡單原型

該市場包含 53 個使用不同數(shù)據(jù)集訓(xùn)練的不同類型的銷售預(yù)測模型,但它們的輸入空間、輸出空間和目標(biāo)是一樣的。因此這些模型的規(guī)約位于同一規(guī)約島。

實(shí)驗(yàn)過程是模擬一位新用戶,其想要在學(xué)件市場的幫助下構(gòu)建自己的銷售預(yù)測模型。

實(shí)驗(yàn)結(jié)果如下所示,相比于用戶使用自己的數(shù)據(jù)從頭構(gòu)建模型,借助學(xué)件市場能獲得不錯的性能提升,尤其是當(dāng)用戶數(shù)據(jù)較少時。

圖 5:銷售預(yù)測實(shí)驗(yàn)結(jié)果圖 5:銷售預(yù)測實(shí)驗(yàn)結(jié)果

結(jié)語

自 2016 年學(xué)件(learnware)思想提出以來,AI 領(lǐng)域已經(jīng)經(jīng)歷了巨大的變化,語音、圖像、視頻、文本、多模態(tài)等各式模型層出不窮,讓人目不暇接。對于不專精于此領(lǐng)域的普通用戶而言,想要為自己的特定任務(wù)找到合適的模型絕非易事,因?yàn)閷?shí)際應(yīng)用總是需要考慮多方面的問題,包括模型性能、使用成本、響應(yīng)速度等等。

如果學(xué)件市場能夠成功大規(guī)模地部署到實(shí)際應(yīng)用環(huán)境中,那么可望開啟 AI 的真正普及之門。屆時,當(dāng)為特定任務(wù)構(gòu)建人工智能模型時,只需要查找學(xué)件市場即可,不再需要從頭開始構(gòu)建,就像現(xiàn)在的程序員在寫軟件時會在 GitHub 等代碼庫搜索有用的代碼一樣。

近來實(shí)現(xiàn)大規(guī)模應(yīng)用的大型語言模型還讓我們看到了新的可能性。設(shè)想一下,如果學(xué)件市場中的模型配備了優(yōu)良的文檔并整合了用戶評論機(jī)制,那么用戶甚至可以使用自然語言描述自己的任務(wù)需求。這樣一來,可能即使完全沒有相關(guān)經(jīng)驗(yàn)的新用戶也能為自己的任務(wù)找到合適的模型。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-10-28 13:29:27

2023-05-10 14:40:40

AI模型算力

2024-01-31 09:34:07

AI機(jī)器學(xué)習(xí)

2024-11-13 14:25:00

模型架構(gòu)

2024-05-29 10:31:52

2023-08-31 07:16:32

人工智能AI算力

2025-02-28 10:25:09

2025-02-17 10:09:54

2025-02-17 13:00:00

ChatGPT大模型AI

2025-02-18 10:25:10

2025-02-28 10:13:58

2024-02-01 08:09:31

GPT容器模塊

2024-07-01 21:06:10

2021-07-08 15:45:08

統(tǒng)計學(xué)AI深度學(xué)習(xí)

2023-07-14 13:49:18

OceanStor華為

2025-03-03 10:00:00

2023-10-04 00:16:00

Chinchilla小模型

2023-06-24 19:59:40

2024-10-08 08:30:15

AI大模型C端
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號