撰稿 | 莫言 & 云昭
“國家隊(duì)”騰訊混元大模型今天終于交卷了!
預(yù)訓(xùn)練語料超2萬億tokens(GPT3.5只有3000億tokens),幻覺、超長文本任務(wù)處理實(shí)測問題超過GPT4,騰訊云、廣告、微信搜一搜、小程序等多個(gè)生態(tài)已經(jīng)接入測試……的確給出了一張令人耳目一新的答卷。
B端服務(wù)同樣也給出了不一樣的打法:客戶可以基于API調(diào)用混元,也可以基于混元做專屬的行業(yè)大模型。此外,騰訊云也全面接入Llama 2、Bloom等20多個(gè)主流模型,和混元一樣,都支持直接部署調(diào)用。
今日舉辦的騰訊全球數(shù)字生態(tài)大會(huì)上,抖出來的有關(guān)混元的“料”實(shí)在不少!總結(jié)起來,接地氣!也很給中國版爭氣!
1、勁頭拉滿,趕超GPT4
大模型很“機(jī)靈”,但使用場景卻非常局限,主要集中在容錯(cuò)率高、任務(wù)簡單的休閑場景。對(duì)此,騰訊在算法層面進(jìn)行了一系列自研創(chuàng)新,提高了模型可靠性和成熟度。
究其原因,騰訊混元解決了大模型普遍的幾個(gè)頑疾——
針對(duì)大模型容易“胡言亂語”的問題,騰訊優(yōu)化了預(yù)訓(xùn)練算法及策略,讓混元大模型的幻覺相比主流開源大模型降低了30%至50%;通過強(qiáng)化學(xué)習(xí)的方法,讓模型學(xué)會(huì)識(shí)別陷阱問題;通過位置編碼優(yōu)化,提高了超長文的處理效果和性能;提出思維鏈的新策略,讓大模型能夠像人一樣結(jié)合實(shí)際的應(yīng)用場景進(jìn)行推理和決策。
首先,向“幻覺”宣戰(zhàn)!一直以來,“幻覺”問題都是大模型的痼疾。在語言模型中,所謂“幻覺”,簡單來說就是指一本正經(jīng)的胡說八道——看似像模像樣、正經(jīng)流暢的表述,實(shí)則是錯(cuò)誤的或不符合事實(shí)的?;糜X的存在嚴(yán)重影響大模型的可靠性和可信度。
造成幻覺的原因是多眾多樣的,比如使用充斥噪聲的數(shù)據(jù)進(jìn)行訓(xùn)練、模型的參數(shù)知識(shí)存在偏向,還有訓(xùn)練與實(shí)際應(yīng)用中的解碼差異等等。
業(yè)界一些做法是通過搜索的增強(qiáng)、知識(shí)增強(qiáng)的圖譜等外掛的形式來提高大模型開卷考試的能力,但騰訊團(tuán)隊(duì)認(rèn)為在這種做法在實(shí)際場景中有很大的局限性,很容易出現(xiàn)生搬硬套、“張冠李戴”的現(xiàn)象。蔣杰舉了一個(gè)“關(guān)公戰(zhàn)秦瓊”的例子。
關(guān)公和秦瓊誰更強(qiáng)?
騰訊則采用了一種基于探針的技術(shù),在預(yù)訓(xùn)練階段就去優(yōu)化目標(biāo)函數(shù),來把這個(gè)問題解決掉。這比目前市場上常見的開源大模型Llama,都有效降低了30%~50%的幻覺率。其次,大模型學(xué)會(huì)識(shí)別陷阱、拒絕誘惑能力也大大增強(qiáng),拒絕回答率提高了20%。
第二,在處理超長文本任務(wù)方面,即便號(hào)稱能力最強(qiáng)的GPT4,也不能生成超出4000字,而混元大模型通過位置編碼優(yōu)化,提升了長文本的處理效果和性能,結(jié)合指令跟隨的優(yōu)化,讓產(chǎn)出的內(nèi)容更符合字?jǐn)?shù)要求,這樣可以給大模型應(yīng)用帶來“突破桎梏”般的體驗(yàn):支持超長文本的生成和續(xù)寫,專利、短篇小說可以說都有了輔助的AI方案了。
GPT4做不到的任務(wù):超過4000字的生成的任務(wù),內(nèi)容必須符合主題
第三,現(xiàn)實(shí)場景中的邏輯思維能力更強(qiáng)。背題庫中的問題不如能結(jié)合語境識(shí)別出真正的問題。就比如這樣一道有關(guān)“90后員工招聘”的接地氣的問題(只有GPT4和混元都答對(duì)了,GPT3.5和其他模型答錯(cuò)了):
公司去年315名員工,90后員工占比1/5 ,今年又招了一批90后員工,90后員工占比達(dá)到了公司人數(shù)的30%,請(qǐng)問,今年招了多少90后員工?
圖片
2、很爭氣:全鏈路自研創(chuàng)新
混元大模型在正式亮相時(shí)還伴隨著一個(gè)令人印象深刻的標(biāo)簽——“全鏈路自研”。
蔣杰對(duì)此解釋道:“開源大模型并不適應(yīng)騰訊海量高并發(fā)場景,自研才能完全掌握技術(shù)內(nèi)核,將大模型更好地融入到騰訊的技術(shù)棧中。”
據(jù)蔣杰介紹,騰訊混元大模型從第一個(gè)token開始從零訓(xùn)練,掌握了從模型算法到機(jī)器學(xué)習(xí)框架,再到AI基礎(chǔ)設(shè)施的全鏈路自研技術(shù)。覆蓋了從大規(guī)模、高質(zhì)量、多樣化的語料庫,到創(chuàng)新的大模型算法,再到自研 Angel 機(jī)器學(xué)習(xí)框架和創(chuàng)新性的訓(xùn)練方法等研發(fā)能力。
從2021年開始,騰訊先后推出千億和萬億參數(shù)的NLP稀疏大模型,打破CLUE三大榜單記錄,實(shí)現(xiàn)在中文理解能力上的新突破。
此外,騰訊還自研了機(jī)器學(xué)習(xí)框架Angel,使訓(xùn)練速度相比業(yè)界主流框架提升1 倍,推理速度比業(yè)界主流框架提升1.3倍。
3、“實(shí)干家”:大模型是道應(yīng)用題
評(píng)測一個(gè)新技術(shù),往往會(huì)有很多的評(píng)測機(jī)構(gòu)或榜單。對(duì)于大語言模型而言,外人只看到“霸榜”、“高分”的熱鬧,看不到的門道卻在于,不同的榜單分?jǐn)?shù)就代表著不同的使用場景的適用機(jī)會(huì)。
騰訊云、騰訊廣告、騰訊游戲、騰訊金融科技、騰訊會(huì)議、騰訊文檔、微信搜一搜、QQ瀏覽器等超過50個(gè)騰訊業(yè)務(wù)和產(chǎn)品,已經(jīng)接入騰訊混元大模型測試,并取得初步效果。正如騰訊集團(tuán)副總裁蔣杰所說:“我們研發(fā)大模型的目標(biāo)不是在評(píng)測上獲得高分,而是將技術(shù)應(yīng)用到實(shí)際場景中。”
比如在廣告業(yè)務(wù)場景,騰訊混元大模型支持智能化的廣告素材創(chuàng)作,能夠適應(yīng)行業(yè)與地域特色,滿足千人千面的需求,實(shí)現(xiàn)文字、圖片、視頻的自然融合。此外,基于混元大模型的能力,廣告智能導(dǎo)購能夠幫助商家在企業(yè)微信等場景,提升服務(wù)質(zhì)量和服務(wù)效率。
據(jù)了解,混元大模型將作為騰訊云MaaS服務(wù)的底座,客戶不僅可以直接通過API調(diào)用混元,也可以將混元作為基底模型,為不同產(chǎn)業(yè)場景構(gòu)建專屬應(yīng)用。
值得一提的是,此前一天,一款名為“騰訊混元助手”小程序在微信正式上線。這是一款基于混元大模型的用戶智能助手,可以回答各類問題,也能處理多種任務(wù),如: 獲取知識(shí)、解決數(shù)學(xué)問題、翻譯、提供旅游攻略、工作建議等,目前“騰訊混元助手”小程序僅限受邀用戶體驗(yàn),有興趣的朋友也可申請(qǐng)排隊(duì)審核體驗(yàn)。
4、寫在最后:大模型是持久戰(zhàn),騰訊很穩(wěn)
此前有媒體報(bào)道,國內(nèi)將有11家大模型陸續(xù)通過《生成式人工智能服務(wù)管理暫行辦法》備案,騰訊也在其中。政策利好,國產(chǎn)AI大模型從狂飆突進(jìn)到追求實(shí)用至上,“大模型之爭”的風(fēng)已經(jīng)吹向了“大模型應(yīng)用之爭”,大模型之戰(zhàn)正迎來新拐點(diǎn)。
如果說參數(shù)之爭體現(xiàn)的是基礎(chǔ)研發(fā)的底座能力,那么應(yīng)用之爭才是決定能否在站穩(wěn)腳跟的絕對(duì)競爭力。“百模大戰(zhàn)”顯然已經(jīng)進(jìn)入到應(yīng)用賽道的角逐階段,然而對(duì)于AIGC時(shí)代而言,依然只是剛剛開始。
App商店里上架并不能代表一帆風(fēng)順,即便強(qiáng)悍如OpenAI的ChatGPT,同樣也經(jīng)歷了“判若峰谷”的考驗(yàn),巨大的算力消耗及團(tuán)隊(duì)招募帶來的資金成本以及能否有足夠多的用戶共建生態(tài),是國內(nèi)大模型的制勝關(guān)鍵所在。
如何讓語言大模型真正在實(shí)際場景中滿足用戶的工作生活所需,夠不夠準(zhǔn)確?夠不夠快?夠不夠創(chuàng)新性?夠不夠安全?都是一款大模型產(chǎn)品要反復(fù)拷問自己的問題。
而對(duì)于騰訊而言,打磨產(chǎn)品體驗(yàn),創(chuàng)新應(yīng)用場景,從來都是不是很難回答的問題,畢竟,龐大的用戶和生態(tài)已然形成,剩下的,也許只是時(shí)間。