大模型工程化落地中面臨的問題 原創(chuàng)
“ 大模型在某種程度上可以理解為是一個人 ”
最近一直在做大模型應(yīng)用落地,隨著對大模型應(yīng)用的開發(fā),對大模型的理解也更加的深刻;因此對大模型的認(rèn)知也從剛開始的奉若神明,慢慢變成了一個能用的工具。
在基于大模型做應(yīng)用落地的過程中,目前來說發(fā)現(xiàn)幾個比較重要的問題,因此在這里記錄一下。
大模型應(yīng)用落地的問題
大模型的能力問題
大模型工程化落地過程中,首先要解決的一個問題就是大模型的能力問題,大模型發(fā)展到今天這個地步,說句實(shí)話各大廠商的模型從根本上來說已經(jīng)沒有太大的差別。
雖然還有人說某某大模型功能強(qiáng)大,但現(xiàn)實(shí)情況是各大模型各有優(yōu)劣,誰也不能說誰能完全壓倒誰。
而且在具體化的落地應(yīng)用中,單一模型已經(jīng)很難完成所有任務(wù),因此多個模型能力整合才是應(yīng)用落地過程中需要解決的問題。簡單來說就是,能夠給合適的應(yīng)用場景找到合適的大模型。
因為不同的模型擅長不同的領(lǐng)域,比如有些模型擅長文字處理,有些模型擅長視頻處理,每個模型擅長的點(diǎn)都不一樣;而且,在同樣的領(lǐng)域,不同的模型也有自己獨(dú)特的風(fēng)格,原因就是其訓(xùn)練的數(shù)據(jù)不一樣。
比如,都是做文字處理的模型,也都能回答一些問題,可能有些模型擅長歷史,有些模型擅長講笑話;有些模型擅長國風(fēng)的視頻,有些模型擅長二次元視頻。
因此,對待大模型不能一概而論誰強(qiáng)誰弱,因為在不同的尺度下根本沒有可比性。
而現(xiàn)在很多做大模型服務(wù)的公司,依然在不斷提升大模型的能力,比如生成能力,邏輯推理能力等。
但是在一些定制化場景中,還是需要進(jìn)行針對性的設(shè)計和訓(xùn)練。
為什么要在這里強(qiáng)調(diào)模型能力問題?
首先你要明白,你需要的業(yè)務(wù)場景大模型的能力是否能滿足;如果不能滿足是因為大模型天生在這方面能力不足,還是說現(xiàn)有的模型無法滿足,但經(jīng)過定制化的模型就可以。
簡單來說就是,你非要讓一條狗去說人話,做人事,這明顯是不可能的事;或者是你公司新招了一個大學(xué)生,可能他在某些方面的能力不足,但只需要經(jīng)過培訓(xùn)和一段時間的工作就可以勝任。
因此,你首先要考慮市面上現(xiàn)有的模型是否能滿足你的需求;還是要自己定制化模型,這個定制化包括簡單的對模型進(jìn)行訓(xùn)練和微調(diào),還有就是從零重新設(shè)計和訓(xùn)練一個全新的模型。
這兩種方式所面臨的成本和技術(shù)要求,完全不可同日而語。
大模型的運(yùn)維問題
在之前的一篇文章中也有提到過大模型在企業(yè)應(yīng)用中所面臨的運(yùn)維壓力,??關(guān)于大模型在企業(yè)生產(chǎn)環(huán)境中的獨(dú)立部署問題??;我們都知道大模型首先具有龐大體量,其次具有龐大的算力和能源需求。
而從這幾個方面來說,大模型運(yùn)維就面臨著巨大的挑戰(zhàn);在傳統(tǒng)的應(yīng)用開發(fā)部署過程中,由于很多企業(yè)業(yè)務(wù)體量小,隨便找一臺機(jī)器就可以跑起來。
但大模型由于其天生體量巨大,因此其剛開始就是傳統(tǒng)系統(tǒng)運(yùn)維所不能解決的,必須要采用分布式或集群部署,而且出于系統(tǒng)性能方面的考慮,大模型的高并發(fā)是必須要解決的一個問題。
而對于大規(guī)模分布式或集群部署,需要有一套完善的自動化運(yùn)維工具,依靠人力是根本無法完成的。
因此,這也是很多企業(yè)落地過程中需要考慮的問題,是自己部署大模型還是直接使用第三方模型。
大模型的運(yùn)維并不是簡單的把模型跑起來即可,在解決分布式并行計算的基礎(chǔ)之上,還需要同時保證大模型的性能和穩(wěn)定性,以及擴(kuò)展性。
這對絕大部分企業(yè)來說都是一種負(fù)擔(dān)。
與傳統(tǒng)開發(fā)的結(jié)合
大模型雖然被一些人給神話了,而且更多的人對大模型的認(rèn)識還處于云山霧繞的階段;但從功能的角度來說,大模型只是系統(tǒng)的一個模塊;從技術(shù)的角度來說,大模型只是一個功能接口。
從大模型的能力角度來說,很多時候可以直接把大模型當(dāng)作一個人,這個“人”會寫作,會繪畫,會做視頻,會寫歌,還會做PPT,還會邏輯推理和判斷;你只需要告訴它你想要什么,然后它就可以幫你做出來。
只不過,不同的情況需要不同的能力進(jìn)行配合,比如繪畫,視頻就需要它的生成能力和CV(計算機(jī)視覺)能力,文字處理就需要它的自然語言處理能力;而做旅行規(guī)劃,工業(yè)生產(chǎn)就需要它具有邏輯判斷和使用“工具(API接口)”的能力。
因此,大模型在落地過程中同樣需要大量的傳統(tǒng)開發(fā)能力,比如使用Python或JAVA做應(yīng)用開發(fā),使用數(shù)據(jù)庫,MQ等做數(shù)據(jù)存儲與通訊等。
大模型能夠讓你的業(yè)務(wù)做的更好,但你同樣需要傳統(tǒng)的開發(fā)能力來保證你業(yè)務(wù)的合理性與穩(wěn)定性。
產(chǎn)品力
最后,說到底大模型只是一個工具,可能它能力比較強(qiáng)大,就類似于一個無所不能的“人”;但怎么利用好這個人,讓你的產(chǎn)品變得更有特色,能夠吸引更多的人來使用你的產(chǎn)品,讓你的產(chǎn)品能夠解決更多人的問題才是你需要考慮的,而這就是你產(chǎn)品的核心競爭力。
而這就是一個把大模型能力產(chǎn)品化的一個過程,所以你需要對大模型的能力有一個清晰的認(rèn)知,并且還需要有把概念化產(chǎn)品落地的能力。這就是產(chǎn)品與大模型技術(shù)的結(jié)合。
當(dāng)今市面上,任何產(chǎn)品的出現(xiàn)都會引來無數(shù)跟風(fēng)的產(chǎn)品,不論從功能還是外貌都大差不差;因此,怎么在日益激烈的市場競爭中殺出一條血路,需要的不僅僅是技術(shù)能力,同時還需要營銷能力,市場把控能力和產(chǎn)品設(shè)計的能力。
總之,大模型工程化落地過程中面臨著各種各樣的問題,這些還是自己能夠想到的問題,可能還有很多想不到的問題存在。
最重要的是,這些問題都比較宏觀,在具體的實(shí)踐過程中還會需要更加細(xì)節(jié)的問題;比如說大模型的能力問題,怎么才能打造一個能用的,好用的強(qiáng)大模型,這是很多模型公司都在思考的問題。
本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/tScaTFfrrOspSNdsMChHTQ???
