大模型發(fā)展之路:向左還是向右?
ChatGPT一經(jīng)發(fā)布,便迅速在全球范圍內(nèi)掀起了新一輪的人工智能熱潮。這款現(xiàn)象級的應(yīng)用不僅僅是一項(xiàng)技術(shù)產(chǎn)品,更是標(biāo)志著一場技術(shù)革命的到來,其背后的大模型正以前所未有的方式改變著我們的世界,并成為了眾多科技企業(yè)競相追逐的焦點(diǎn)。
然而,在這場圍繞大模型的技術(shù)熱潮中,不同的技術(shù)選擇、商業(yè)策略和發(fā)展理念也引發(fā)了廣泛的討論與爭議。
開源閉源之爭
在大模型領(lǐng)域,開源與閉源的爭議尤為突出。國外方面,特斯拉創(chuàng)始人馬斯克曾對OpenAI及其CEO薩姆·阿爾特曼(Sam?Altman)等人提起訴訟,稱他們已放棄了公司的最初使命,即開發(fā)人工智能以造福人類而不是為了利潤。據(jù)報道,馬斯克提出了包括違約、違反信托義務(wù)和不公平商業(yè)行為在內(nèi)的索賠,并要求該公司恢復(fù)開源。
國內(nèi)方面,百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏是閉源的堅定支持者。今年4月,他在Create百度AI開發(fā)者大會上演講時表示:“大家以前用開源覺得開源便宜,其實(shí)在大模型場景下,開源是最貴的。所以開源模型會越來越落后?!?/p>
對此,周鴻祎公開反駁稱:“我是一直相信開源的力量,至于說網(wǎng)上有些名人胡說八道,你們別被忽悠了。他說開源不如閉源好?連說這話的公司自己都是借助了開源的力量才成長到今天?!?/p>
百川智能CEO王小川則在微信群中表達(dá)了觀點(diǎn)。他認(rèn)為,開源和閉源并不像手機(jī)中iOS或者安卓操作系統(tǒng)只能二選一。從To?B角度,開源閉源其實(shí)都需要。
實(shí)際上,這些爭議并不是非此即彼的選擇,而是需要根據(jù)企業(yè)的實(shí)際情況、市場需求和技術(shù)趨勢來綜合考慮。開源模型憑借其開放性、創(chuàng)新力和高透明度,贏得了眾多開發(fā)者和企業(yè)的青睞。與此同時,閉源模型則以其出色的性能和嚴(yán)格的知識產(chǎn)權(quán)保護(hù),滿足了企業(yè)對高性能和專業(yè)服務(wù)的需求。
通用垂直之爭
通用大模型與垂直大模型之爭,也是大模型領(lǐng)域的一個重要話題。通用大模型憑借其廣泛的適應(yīng)性和強(qiáng)大的學(xué)習(xí)能力,能夠處理多種任務(wù),從文本生成到情感分析,在多個領(lǐng)域展現(xiàn)出廣泛的應(yīng)用潛力。
例如,GPT可以通過大量的文本數(shù)據(jù)來學(xué)習(xí)自然語言的規(guī)律,具有極高的語言生成能力和自我訓(xùn)練能力,廣泛應(yīng)用于自然語言處理領(lǐng)域。BERT作為一種先進(jìn)的預(yù)訓(xùn)練語言模型,模型能夠同時考慮前后文的上下文信息,從而更好地理解語義和語境,主要用于處理文本分類、問答系統(tǒng)、命名實(shí)體識別和語義相似度計算等任務(wù)。
與通用大模型相比,垂直大模型則以其專業(yè)性強(qiáng)、落地速度快的特點(diǎn),在特定領(lǐng)域內(nèi)占據(jù)優(yōu)勢。
例如,華為云盤古大模型就將重塑千行百業(yè)作為發(fā)展方向。值得一提的是,在今年的華為開發(fā)者大會上,華為云正式發(fā)布了盤古大模型5.0。據(jù)悉,華為云盤古大模型5.0的應(yīng)用已經(jīng)延伸至自動駕駛、工業(yè)設(shè)計、建筑設(shè)計、具身智能、數(shù)字內(nèi)容生產(chǎn)、高鐵、鋼鐵、氣象、醫(yī)藥等多個行業(yè)及場景。
再比如,京東推出的言犀大模型立足于產(chǎn)業(yè)研發(fā)。京東方面稱,言犀大模型具有更高產(chǎn)業(yè)屬性、更強(qiáng)泛化能力、更多安全保障,將深入零售、物流、金融、健康、政務(wù)等知識密集型、任務(wù)型產(chǎn)業(yè)場景,解決產(chǎn)業(yè)實(shí)際問題。
可以說,通用大模型與垂直大模型各有優(yōu)勢,它們在不同的場景和需求下發(fā)揮著不同的作用。
自研調(diào)用之爭
自研大模型與調(diào)用第三方大模型服務(wù)的爭議,同樣值得關(guān)注。自研大模型能夠讓企業(yè)掌握核心技術(shù)和知識產(chǎn)權(quán),形成獨(dú)特的競爭優(yōu)勢,但需要巨大的投入和長時間的研發(fā)周期。僅從訓(xùn)練成本來看,據(jù)《ChatGPT?需要多少算力》中估算,GPT-3訓(xùn)練一次的成本約為140萬美元,對于一些更大的LLM模型,訓(xùn)練成本介于200萬美元至1200萬美元之間。
相比之下,調(diào)用第三方大模型服務(wù)可以快速實(shí)現(xiàn)業(yè)務(wù)需求,降低研發(fā)成本和風(fēng)險,但也可能受限于第三方服務(wù)的穩(wěn)定性和可控性。例如,OpenAI明確表示從7月9日起,將阻止來自未列入OpenAI支持的國家和地區(qū)列表的API流量。這意味著,此前希望借助OpenAI大模型套殼創(chuàng)業(yè)的公司,將迎來巨大打擊。
由此可見,自研與第三方大模型服務(wù)的選擇取決于企業(yè)的戰(zhàn)略定位、資源條件以及對核心技術(shù)的需求。
寫在最后:
我們可以看到,圍繞大模型技術(shù)的爭議不僅反映了不同企業(yè)在技術(shù)選擇、商業(yè)策略和發(fā)展理念上的差異,也為整個行業(yè)的未來發(fā)展提供了多元化的機(jī)會。對于身處大模型領(lǐng)域的廠商而言,無論是開源與閉源的抉擇,通用與垂直的定位,還是自研與調(diào)用的戰(zhàn)略考慮,都需要根據(jù)自身實(shí)際情況和市場趨勢做出選擇。