自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

領(lǐng)域模型生產(chǎn)指南

人工智能
本文將分享滴普科技在服務(wù)客戶過(guò)程中積累下來(lái)的領(lǐng)域大模型構(gòu)建指南。領(lǐng)域模型脫胎于通用大模型,兩者有相似之處,但通用大模型在訓(xùn)練時(shí)使用的是通識(shí)數(shù)據(jù)集,缺少領(lǐng)域知識(shí),導(dǎo)致企業(yè)在應(yīng)用過(guò)程中會(huì)發(fā)現(xiàn)一些問(wèn)題。

領(lǐng)域模型脫胎于通用大模型,兩者有相似之處,但通用大模型在訓(xùn)練時(shí)使用的是通識(shí)數(shù)據(jù)集,缺少領(lǐng)域知識(shí),導(dǎo)致企業(yè)在應(yīng)用過(guò)程中會(huì)發(fā)現(xiàn)一些問(wèn)題。比如,如果我們要做一個(gè)滴普科技的智能問(wèn)答機(jī)器人,但通用大模型并沒(méi)有學(xué)習(xí)到滴普科技的各種產(chǎn)品信息,缺少先驗(yàn)知識(shí)。

目前這個(gè)問(wèn)題有兩種解決途徑,一種是 RAG,通過(guò)外掛知識(shí)庫(kù)來(lái)彌補(bǔ)通用大模型缺乏領(lǐng)域知識(shí)或知識(shí)更新較慢的問(wèn)題;另一種是構(gòu)建領(lǐng)域大模型,即在通用大模型的基礎(chǔ)上使用領(lǐng)域數(shù)據(jù)集進(jìn)行微調(diào),使其能夠識(shí)別或記住領(lǐng)域知識(shí),以更好地為企業(yè)服務(wù)。

本文將分享滴普科技在服務(wù)客戶過(guò)程中積累下來(lái)的領(lǐng)域大模型構(gòu)建指南。

一、領(lǐng)域大模型與通用大模型的區(qū)別


圖片

1. 數(shù)據(jù)集不同

  • 通用大模型已有許多優(yōu)秀的開(kāi)源數(shù)據(jù)集,注重廣度、覆蓋各行各業(yè),但在特定行業(yè)的深度不夠,或只在某幾個(gè)行業(yè)具備一定深度。比如 Code Llama(代碼生成大模型)在 Python、Java 等代碼層面有較多的數(shù)據(jù)集的積累,但其他冷門(mén)語(yǔ)言的數(shù)據(jù)集較少。
  • 領(lǐng)域大模型可以使用通用數(shù)據(jù),但不能完全使用,因此受限于行業(yè)。目前只有少數(shù)行業(yè)存在行業(yè)數(shù)據(jù)集,比如法律行業(yè)有裁判文書(shū)等開(kāi)源數(shù)據(jù)集,但較多行業(yè)比如零售沒(méi)有數(shù)據(jù)集。

2. 靈活性和準(zhǔn)確性不同

靈活性不同:通用大模型具有較高的靈活性和泛化能力,可以通過(guò) prompt 使其適用于各種不同的任務(wù)和場(chǎng)景。準(zhǔn)確性不同:在具體行業(yè)中,通用大模型的準(zhǔn)確性不如領(lǐng)域大模型。

靈活性和準(zhǔn)確性是天平的兩端,如果追求高準(zhǔn)確性,靈活性就會(huì)受限,相反若追求靈活性則準(zhǔn)確性會(huì)受限。因此在模型訓(xùn)練過(guò)程中需要平衡靈活性和準(zhǔn)確性。

3. 復(fù)雜性不同

通用大模型復(fù)雜度較高。領(lǐng)域大模型更多用于企業(yè)內(nèi)部,不需要追求像通用大模型那么強(qiáng)的泛化能力,且可以使用小參數(shù)的模型來(lái)滿足客戶需求,復(fù)雜度相對(duì)較低。

二、基于企業(yè)數(shù)據(jù)的領(lǐng)域數(shù)據(jù)集構(gòu)建

數(shù)據(jù)集準(zhǔn)備是領(lǐng)域模型中最重要的環(huán)節(jié),最終會(huì)影響領(lǐng)域模型的效果。

1. 高質(zhì)量數(shù)據(jù)集創(chuàng)建難點(diǎn)

圖片

在創(chuàng)建高質(zhì)量領(lǐng)域數(shù)據(jù)集的過(guò)程中,存在以下三個(gè)難點(diǎn):

  • 高質(zhì)量數(shù)據(jù)集少:較多客戶只有一個(gè)文檔庫(kù),且這些文檔大多是完全未經(jīng)處理的。
  • 數(shù)據(jù)處理受限:需要先對(duì)客戶的數(shù)據(jù)進(jìn)行處理,耗時(shí)、成本高。通用大模型處理數(shù)據(jù)時(shí),優(yōu)先會(huì)使用 ChatGPT 先做一些預(yù)處理,但為了保障企業(yè)數(shù)據(jù)隱私,此類數(shù)據(jù)處理方法無(wú)法使用,數(shù)據(jù)處理工具受限。
  • 數(shù)據(jù)多樣性:數(shù)據(jù)多樣性的平衡會(huì)影響模型的靈活性和準(zhǔn)確性,如果數(shù)據(jù)多樣性低,模型的靈活性受限;如果多樣性高,模型的準(zhǔn)確性就可能會(huì)降低。

2. 高質(zhì)量數(shù)據(jù)集創(chuàng)建方法論

(1)SFT

圖片

高質(zhì)量數(shù)據(jù)集少時(shí),優(yōu)先使用 SFT 進(jìn)行訓(xùn)練。

我們截取了《置身事內(nèi)》中的一段文字,近似于在做領(lǐng)域大模型時(shí)普遍拿到的數(shù)據(jù)類型,即 word 文檔數(shù)據(jù)。我們要通過(guò) ChatGPT 或人工的方式,將數(shù)據(jù)處理成一問(wèn)一答的對(duì)話數(shù)據(jù)。比如問(wèn)題是“土地財(cái)政是什么,它對(duì)地方政府對(duì)貢獻(xiàn)有多大”,回答的結(jié)果就是書(shū)里面的原文。通過(guò)這種方式去積累 SFT 數(shù)據(jù),通過(guò) SFT 去做訓(xùn)練,可以降低我們對(duì)高質(zhì)量數(shù)據(jù)集的要求。

就實(shí)際測(cè)試情況來(lái)看,在做一個(gè)特殊領(lǐng)域的時(shí)候,只需要積累 1000 條這樣的問(wèn)答對(duì),就可以達(dá)到一個(gè)能夠接受的效果。

這就是我們的第一個(gè)方法論,通過(guò) SFT 去做訓(xùn)練。對(duì)于一些很大的文檔,從中提取要點(diǎn),通過(guò)這種方式喂給數(shù)據(jù)集。

(2)使用大模型自身能力

圖片

面對(duì)數(shù)據(jù)處理受限問(wèn)題,我們提出的方法是使用大模型本身的能力去提速數(shù)據(jù)處理過(guò)程。

例如,靠人工去寫(xiě)問(wèn)答對(duì)肯定是不現(xiàn)實(shí)的,這種情況下可以通過(guò)大模型本身的信息提取能力去實(shí)現(xiàn)。把原始文檔放到 LLM 里面,通過(guò) prompt 形式提取文檔的詳細(xì)信息,使其變成結(jié)構(gòu)化知識(shí),轉(zhuǎn)換為訓(xùn)練集。

在這個(gè)過(guò)程中,LLM 有幾種選擇,例如 Claude2、GPT4 和 GPT3.5。這三種模型能夠在公網(wǎng)上使用。我們強(qiáng)烈推薦 Claude2,因?yàn)樗畲竽苤С?200K 的 token,意味著我們拿到的大部分文檔都可以整個(gè)塞進(jìn)去,不需要通過(guò) RAG 或embedding 的手段做特征提取等工作。ChatGPT4 比較貴,不太能獲取到,3.5 版本也是可以的。如果面向不能把數(shù)據(jù)放在公網(wǎng)上的客戶,我們建議使用 LLAMA2 13B、ChatGLM2 6B。

我們?cè)诳蛻衄F(xiàn)場(chǎng)做項(xiàng)目的時(shí)候,第一件事是先把滴普大模型部署到客戶的環(huán)境中,然后基于滴普大模型幫客戶處理文檔,以解決客戶文檔處理中的人手問(wèn)題。在這種情況下,人所需要做的只是根據(jù)文檔特征確定 prompt,之后就可以把文檔一篇一篇地放到大模型里面,使其源源不斷地輸出結(jié)構(gòu)化知識(shí)。最后我們?cè)偻ㄟ^(guò)一些手段把結(jié)構(gòu)化知識(shí)變成我們的訓(xùn)練集。

(3)數(shù)據(jù)多樣性的平衡方法

圖片

在結(jié)構(gòu)化知識(shí)轉(zhuǎn)變?yōu)橛?xùn)練集的過(guò)程中,我們需要去思考數(shù)據(jù)多樣性的平衡問(wèn)題,即如何平衡靈活性和準(zhǔn)確性。

我們認(rèn)為,要達(dá)到比較平衡的效果,領(lǐng)域數(shù)據(jù)集大概需要占到 30%。超過(guò)這個(gè)比例越多,靈活性就越低、準(zhǔn)確性越高;相反,則靈活性越高、準(zhǔn)確性越低。

具體這個(gè)比例選擇多少,需要根據(jù)客戶需求及實(shí)際場(chǎng)景去考慮。

  • 比如某個(gè)客戶需求是做一個(gè)意圖識(shí)別大模型,它不需要面向普通用戶,而是面向程序,這種情況下是不需要考慮靈活性的,那么就可以把領(lǐng)域數(shù)據(jù)的比例直接拉到 100%。
  • 又比如客戶需要大模型對(duì)公司汽車產(chǎn)品的操作指南、操作手冊(cè)去進(jìn)行回答,用戶遇到問(wèn)題就可以詢問(wèn)大模型。對(duì)于這種客戶,是需要應(yīng)對(duì)客戶需求、直接面向終端用戶的,那么就需要把數(shù)據(jù)拉到 30%。

(4)總結(jié)

圖片

通過(guò) SFT 降低對(duì)高質(zhì)量數(shù)據(jù)集的要求,1000 高質(zhì)量對(duì)話數(shù)據(jù)就可以滿足領(lǐng)域大模型的訓(xùn)練。充分利用現(xiàn)有大模型的手段來(lái)降低數(shù)據(jù)處理或者數(shù)據(jù)預(yù)處理(即知識(shí)提?。?duì)人工處理的要求。建立通用知識(shí)庫(kù),靈活地去調(diào)整比例,實(shí)現(xiàn)通用和領(lǐng)域數(shù)據(jù)的自動(dòng)融合,最后得出來(lái)一個(gè)能夠支持后續(xù)訓(xùn)練的數(shù)據(jù)集。

三、模型訓(xùn)練方法的選擇

圖片

常用的訓(xùn)練方法包括 Fine tune、P-tuning、Lora、Q-Lora 等,接下來(lái)介紹如何選擇微調(diào)方法。

1. 不同訓(xùn)練方法的比較

圖片

訓(xùn)練方法可以分為全參微調(diào)和高效微調(diào)兩類:

(1)全參微調(diào)

硬件要求高,比如訓(xùn)練 13B 模型至少需要 A800 硬件,普通的 A10、A20、A30、4090 等是無(wú)法勝任的。成本高,不只是需要一塊 A800,需要建立多機(jī)多卡集群,可能得有三十幾臺(tái)或二十幾臺(tái)且每臺(tái)八塊的 A800 才能去做一個(gè)比較大的全參微調(diào)。準(zhǔn)確性好,它動(dòng)了所有的參數(shù),因此準(zhǔn)確性會(huì)比較好。靈活性低,全參微調(diào)最重要的點(diǎn)是怎么解決過(guò)擬合的問(wèn)題,如果過(guò)擬合,可能會(huì)讓模型忘記之前的知識(shí),因此靈活性降低。

(2)高效微調(diào)

硬件要求低,廉價(jià)的硬件也能跑。根據(jù)實(shí)測(cè)情況,很多LORA 等高效微調(diào)甚至可以跑在蘋(píng)果筆記本上,一般 M1 Pro 芯片就能比較好的運(yùn)行,4090 顯卡要跑 Lora 也是很輕松的,甚至 3090 都可能。準(zhǔn)確低,Lora 等高效微調(diào)其實(shí)很挑場(chǎng)景,有些場(chǎng)景下效果會(huì)比較好,有些場(chǎng)景效果就上不去。靈活性高,Lora 這種高效微調(diào)方式的一般邏輯是原有的大模型參數(shù)不動(dòng),加一些參數(shù),訓(xùn)練其實(shí)也是訓(xùn)練最后增加的那部分參數(shù),這也就意味著模型本身的能力并不會(huì)降低。

2. 選擇方法

圖片

這里列出了兩個(gè)數(shù)據(jù)集:

第一個(gè)數(shù)據(jù)集的目標(biāo)是調(diào)整格式:

問(wèn) Java 線程是什么,用滴普大模型生成了回答,這個(gè)回答看上去是比較完整的。如果客戶有個(gè)需求是給出一些定義而非代碼,那么就需要去微調(diào)模型的輸出。需要通過(guò)這類數(shù)據(jù)得到下面關(guān)于“Java 線程是什么?”的一句話定義。

第二種數(shù)據(jù)集的目的是記住新的知識(shí):

比如一個(gè)金融題,授信額度是什么?這個(gè)題目答案是 a。但是在沒(méi)有訓(xùn)練或沒(méi)有針對(duì)性訓(xùn)練的時(shí)候,大模型的回答是 c,這是沒(méi)有微調(diào)時(shí)的答案。這種情況下如果要微調(diào),那我們的目標(biāo)是要讓大模型能夠記住一些新的知識(shí)。

(1)從數(shù)據(jù)集特征入手

圖片

通過(guò)這兩類數(shù)據(jù),即可得出第一個(gè)方法論,先從數(shù)據(jù)集的特征入手:

  • 只是做一些輸出格式的調(diào)整,不需要讓大模型去記住新的知識(shí)時(shí),選擇高效微調(diào)方法。訓(xùn)練模型只是為了輸出更符合客戶需求的話術(shù),或更符合客戶要求的數(shù)據(jù)集,而并沒(méi)有改變數(shù)據(jù)集本身的權(quán)重、記憶、知識(shí)結(jié)構(gòu)時(shí),Lora 的表現(xiàn)比較好。
  • 需要讓模型記住新的知識(shí)時(shí),建議通過(guò)全量參數(shù)去微調(diào)。

(2)從硬件層面選擇

圖片

進(jìn)行全量微調(diào)時(shí),13B 模型至少需要一塊 80G 的 A800。根據(jù)實(shí)際數(shù)量不同,對(duì)塊數(shù)要求也不同。比如根據(jù)滴普實(shí)測(cè)結(jié)果來(lái)看,350 萬(wàn)條的對(duì)話數(shù)據(jù)集,一塊 A800 肯定是不行的,速度會(huì)非常慢。訓(xùn)練一個(gè) 100 萬(wàn)數(shù)量級(jí)的數(shù)據(jù)集,A800 的塊數(shù)估計(jì)是 32-64 塊,也就是至少需要兩臺(tái)服務(wù)器,才能達(dá)到可接受的速度,即不超過(guò) 72 小時(shí)。

7B 模型,4090 就可以跑,需要 24G 的顯存。

(3)從效果層面選擇

圖片

對(duì)靈活性要求不高,只注重準(zhǔn)確性時(shí),全量微調(diào)是比較好的選擇。需文本分類、實(shí)體關(guān)系提取、意圖識(shí)別之類的場(chǎng)景,對(duì)數(shù)據(jù)多樣性、靈活性要求不高時(shí),完全可以選擇全量微調(diào)的形式,因?yàn)槿绻l(fā)生過(guò)擬合也可以接受。

(4)總結(jié)

圖片

結(jié)合客戶需求,建議先使用 Q- Lora 進(jìn)行試驗(yàn);如果 Q- Lora 不可行,則選擇Lora;如果 Lora 也不行,就選全參微調(diào)。

四、驗(yàn)證集的構(gòu)建及模型評(píng)估方法

當(dāng)我們辛辛苦苦用昂貴的硬件通過(guò) 72 小時(shí)甚至幾百小時(shí)的訓(xùn)練之后,得到一個(gè)模型,迫切需要驗(yàn)證其是否可用,有沒(méi)有記住數(shù)據(jù)集。

首先模型一定是選擇 loss 比較低、準(zhǔn)確率比較高的,但是選擇準(zhǔn)確性最好的模型就行了嗎?如果它發(fā)生了比較長(zhǎng)的記憶遺忘的情況怎么辦?因此,我們需要去驗(yàn)證一下模型是否合理。

1. 領(lǐng)域大模型驗(yàn)證的難點(diǎn)

圖片

領(lǐng)域大模型的驗(yàn)證是比較難的一個(gè)問(wèn)題,因?yàn)樗幌裢ㄓ么竽P痛嬖?human even 等通用的驗(yàn)證數(shù)據(jù)集,只需要用普通的腳本跑一遍就可以知道好還是不好。

2. 五維模型能力評(píng)估

對(duì)于領(lǐng)域大模型如何構(gòu)建驗(yàn)證集,到目前為止仍處在探索過(guò)程中,這里要講的方法不一定是最優(yōu)的,只是我們通過(guò)一些選擇、實(shí)驗(yàn)發(fā)現(xiàn)的效果比較好的一種方法,并且評(píng)估方法也會(huì)不停迭代。

圖片

我們建立了五維的模型基礎(chǔ)能力評(píng)估模型:

(1)分詞能力

中文和英文不同,英文是一個(gè)單詞接近于一個(gè) token,但中文是通過(guò)單個(gè)字喂進(jìn)去的。在這種情況下,模型本身的分詞能力就非常重要。

在沒(méi)有大模型之前,分詞本身就是一個(gè)非常難的事情,是靠人類寫(xiě)一些方法去實(shí)現(xiàn)的,其效果局限于分詞模型的大小。但是在大模型時(shí)代,可以把單個(gè)字喂到大模型里,讓大模型自己產(chǎn)生分詞能力,分詞能力已經(jīng)從之前靠分詞模型的能力變成了大模型本身的能力。所以我們首先就要去判斷模型的分詞能力是否及格。

(2)句法分析、語(yǔ)法分析、語(yǔ)義消歧、理解能力

分完詞后,要去判斷它的句法分析能力,然后判斷語(yǔ)法分析能力,以及語(yǔ)義消歧能力,最后判斷其理解能力。

從這個(gè)過(guò)程可以看出來(lái),對(duì)于一個(gè)基本的文本,通過(guò)它的語(yǔ)料和元素,從最開(kāi)始的一個(gè)字詞變成一句話、再變成語(yǔ)法、再到語(yǔ)義消歧,整個(gè)閱讀理解是從低到高的順序。

3. 舉例

(1)分詞能力

圖片

給大模型一段話,比如告訴他,請(qǐng)對(duì)下面這段話進(jìn)行分詞并用數(shù)組格式輸出,通過(guò)這種方式判斷模型能不能正確分出來(lái)。

(2)句法分析能力

圖片

模型能不能分析出一句話的主語(yǔ)、謂語(yǔ)、賓語(yǔ)、主謂賓、定狀補(bǔ)等,分析句子之間的關(guān)系,并列、轉(zhuǎn)折等。

(3)語(yǔ)義分析能力

圖片

比如請(qǐng)分析一下下面兩句話的語(yǔ)義是否相似:廣東的廣州是廣東的省會(huì),廣東省的省會(huì)是廣州。這兩句話的含義其實(shí)是一樣的,模型最后輸出的內(nèi)容是能夠識(shí)別出這兩句語(yǔ)義是一樣的。另一示例,廣州是廣東的省會(huì),江蘇省的省會(huì)是哪?這兩句語(yǔ)義是完全不一樣的,大模型也能夠識(shí)別出來(lái),說(shuō)明它是具備一定的語(yǔ)義分析能力的。

(4)語(yǔ)義消歧能力

圖片

比如給出“雷軍是小米的創(chuàng)始人”,詢問(wèn)模型小米指的是?因?yàn)樾∶追诺侥承┨囟ㄕZ(yǔ)義下指的我們吃的小米,但在這句話里面小米指的是公司。模型回答小米指的是小米科技,說(shuō)明它能對(duì)語(yǔ)義做一些消歧。

還比如給它一段比較長(zhǎng)的昨天發(fā)生的新聞,詢問(wèn)模型里面提到的公司是哪家?模型能夠識(shí)別出一段話里面的具體代詞,這也說(shuō)明模型可以做到跨上下文的關(guān)聯(lián)性。

(5)理解能力

圖片

給模型一段非常長(zhǎng)的文本,讓模型能夠提取出這段文本里面的一個(gè)比較關(guān)鍵的特征。

4. 驗(yàn)證集準(zhǔn)備方法論

圖片

  • 事先準(zhǔn)備通識(shí)驗(yàn)證數(shù)據(jù)集。
  • 針對(duì)五個(gè)維度,客戶準(zhǔn)備具體領(lǐng)域的數(shù)據(jù)集。
  • 準(zhǔn)備一個(gè)基準(zhǔn)模型,可以用 Llama2、chatGLM、百川之類的開(kāi)源大模型做基準(zhǔn)。如下圖所示,將基準(zhǔn)模型和我們模型的能力放到同一個(gè)雷達(dá)圖上,得出兩者之間面積的重合點(diǎn)以及兩者的差距,這是一種橫向?qū)Ρ鹊姆椒ā?/span>

圖片

五、國(guó)產(chǎn)硬件評(píng)測(cè)

圖片

最后來(lái)分享一下對(duì)國(guó)產(chǎn)硬件的評(píng)測(cè)結(jié)果。

根據(jù)最后一列的數(shù)據(jù),英偉達(dá)的 A800,13B 的推理速度大概是 33 個(gè) token 每秒,7B 是 45 個(gè) token 每秒。

以此為基準(zhǔn),摩爾線程 S3000 顯卡,13B 的推理速度可以達(dá)到 20;S4000 可以達(dá) 29;華為升騰 910A,13B 是 15,7B 是 23。

兼容性方面,這些顯卡的兼容性都是不錯(cuò)的,但是都需要對(duì)我們現(xiàn)有的英偉達(dá)的模型做一些轉(zhuǎn)換。

六、問(wèn)答環(huán)節(jié)

Q1:模型驗(yàn)證還是要靠人工來(lái)看?能不能自動(dòng)化?分?jǐn)?shù)是怎么得出的?

A1:很多驗(yàn)證是可以通過(guò)腳本去干的。以分詞為例,對(duì)比它的輸出結(jié)果和標(biāo)準(zhǔn)答案之間的區(qū)別。prompt 寫(xiě)得好一點(diǎn),告訴它應(yīng)該輸出什么樣的格式,調(diào)整成代碼能夠接受的輸出,就可以自動(dòng)化去做判斷。

Q2:拿比較少的數(shù)據(jù)去微調(diào)一個(gè)領(lǐng)域的模型,它在回答那種需要準(zhǔn)確答案的場(chǎng)景下的效果是怎么樣的?比如在法律領(lǐng)域,用一兩千條去調(diào)完之后,問(wèn)它刑罰的第二條第三款,它能夠比較準(zhǔn)確地回答嗎?

A2:如果你問(wèn)的問(wèn)題已經(jīng)在這 1000 條內(nèi)容之間了,它只需要做一些簡(jiǎn)單的推理,這個(gè)是沒(méi)問(wèn)題的。

如果說(shuō)只訓(xùn)練了刑法的內(nèi)容,但問(wèn)他民法的內(nèi)容,那肯定是回答不了的,會(huì)出現(xiàn)幻覺(jué)問(wèn)題。

所以如果需要的領(lǐng)域比較大,那肯定是要對(duì)應(yīng)地增加這 1000 條數(shù)據(jù)集的。

Q3:比如用一兩千條的數(shù)據(jù)來(lái)微調(diào)它,那么即使問(wèn)的問(wèn)題可能是在你的訓(xùn)練數(shù)據(jù)集里的,但問(wèn)法稍微一變,它還能夠準(zhǔn)確的回答嗎?比如說(shuō)法律里的權(quán)利跟權(quán)力。這兩個(gè)力是不一樣的,那么它在回答的時(shí)候,可能你的數(shù)據(jù)集體原始答案是利的利,它會(huì)變成力量的力,它意思就完全變了,這種情況的話會(huì)不會(huì)出現(xiàn)以及怎么解決?

A3:會(huì)出現(xiàn),其實(shí)這個(gè)問(wèn)題就是全量微調(diào)里面非常頭疼的問(wèn)題,訓(xùn)著訓(xùn)著可能把它本身的一些能力給弱化掉了,這在全量微調(diào)的時(shí)候其實(shí)是非常容易出現(xiàn)的一個(gè)問(wèn)題,并且還不是少數(shù)。

這種情況下我覺(jué)得第一個(gè)點(diǎn)就是驗(yàn)證模型變得非常關(guān)鍵。比如說(shuō)就像你剛剛問(wèn)的,權(quán)利跟權(quán)力之間有什么區(qū)別。我們?cè)跍?zhǔn)備數(shù)據(jù)集的時(shí)候,就把這一塊的數(shù)據(jù)做成訓(xùn)練集訓(xùn)練進(jìn)去。完全指望模型去做知識(shí)與知識(shí)之間的連接效果沒(méi)有那么好。其次就是如果真的發(fā)現(xiàn)這種情況,那只能去不停地訓(xùn)練,只能通過(guò)準(zhǔn)備數(shù)據(jù)集加上驗(yàn)證的方式,盡可能得去降低這一風(fēng)險(xiǎn)。但要完全避開(kāi)這種問(wèn)題,目前還是做不到的,可能得等整個(gè)模型界有一些新的技術(shù)出現(xiàn)才會(huì)解決,并不是通過(guò)工程化的方式能解決的。

Q4:您剛剛講了整個(gè)做領(lǐng)域模型的 pipeline,我有一個(gè)小小的問(wèn)題。因?yàn)槟鷦倓偠际菃屋喌?,從?zhǔn)備數(shù)據(jù)一直到訓(xùn)練、驗(yàn)證,假設(shè)驗(yàn)證效果不好,我們肯定要再繼續(xù)來(lái)這個(gè)過(guò)程,那在這個(gè)過(guò)程中如果我們發(fā)現(xiàn),比如準(zhǔn)確性不高,我們可能想要把數(shù)據(jù)量變大、數(shù)據(jù)質(zhì)量提高或者換一種訓(xùn)練方法等等。這個(gè)時(shí)候一般是怎樣去考慮的?

A4:我們更多的也是通過(guò)驗(yàn)證的結(jié)果去看的。

舉個(gè)例子,如果說(shuō)發(fā)現(xiàn)它的分詞能力比較弱,那么已經(jīng)不僅僅是訓(xùn)練集準(zhǔn)備的問(wèn)題了,可能是整個(gè)模型過(guò)擬合已經(jīng)非常嚴(yán)重了。這種情況下基本上這個(gè)模型是需要重新訓(xùn)練的。

如果只是理解能力或者語(yǔ)義消歧能力出現(xiàn)問(wèn)題,可能只是數(shù)據(jù)集準(zhǔn)備得不夠到位。這種情況下就需要去補(bǔ)充數(shù)據(jù)集。

我們發(fā)現(xiàn)大部分情況基本上是通過(guò)補(bǔ)充數(shù)據(jù)集或者調(diào)整數(shù)據(jù)集就能夠解決的。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2020-06-12 13:40:10

NEC

2020-04-24 13:45:03

深度學(xué)習(xí)疫苗人工智能

2023-08-29 07:53:17

領(lǐng)域驅(qū)動(dòng)設(shè)計(jì)

2020-02-25 15:47:05

ElasticsearLucene地方

2024-02-19 00:06:50

AI模型

2021-07-14 10:09:05

架構(gòu)模型數(shù)據(jù)

2022-05-02 18:45:33

Kubernetes網(wǎng)絡(luò)模型

2017-11-17 05:39:27

DDD建模模型

2023-02-20 14:44:22

DDD領(lǐng)域模型

2024-07-09 11:01:24

2024-04-02 07:25:19

大語(yǔ)言模型青少年編程NLG

2025-03-28 09:00:00

2010-07-29 09:31:28

Flex編程模型

2024-01-12 10:29:26

2009-06-24 16:30:21

JSF組件模型

2024-09-14 15:19:11

2024-12-23 16:02:39

2025-03-28 09:46:05

AI算法AI人工智能

2019-08-08 08:00:00

深度學(xué)習(xí)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2021-01-15 13:18:39

數(shù)據(jù)模型領(lǐng)域模型代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)