作者 | 徐杰承
審校 | 云昭
51CTO讀者成長計劃社群招募,咨詢小助手(微信號:TTalkxiaozhuli)
“你訓(xùn)練的大模型涌現(xiàn)了嗎?”“還沒有。好難受?!币粫r間成為了最近AI賽道玩家的一個爆熱梗。
不管承不承認(rèn),相信每個玩家都不愿意輸?shù)暨@場激烈的競爭。自百度成為國內(nèi)“第一個吃螃蟹的人”后,又有兩大中國科技巨頭做好了準(zhǔn)備——華為和阿里巴巴各自新研發(fā)的“大模型”、“ChatGPT”,也都即將于近日問世。
首先是華為的盤古大模型新版本即將亮相的消息!據(jù)稱,4月8日,華為云人工智能首席科學(xué)家田奇,將在杭州人工智能大模型技術(shù)高峰論壇上,通過一場技術(shù)分享介紹“盤古大模型的進(jìn)展及其應(yīng)用”。
與此同時,一封來自阿里的會議邀請函也給業(yè)內(nèi)帶來了很有分量的消息:在4月11日的阿里云峰會上,將正式推出阿里最新自研的大模型,模型內(nèi)測目前已在進(jìn)行中,且接下來還會有各類行業(yè)應(yīng)用類模型問世。就在今天中午,通義大模型已經(jīng)官宣開始企業(yè)邀測!
來源:阿里云公眾號
如果說之前巨頭們從“大煉模型”到“煉大模型”是在秀肌肉、打地基,那么這次發(fā)布模型的意義,則更多的在于入局類ChatGPT產(chǎn)品賽道!
一、華為:深耕B端,開辟多業(yè)務(wù)場景
事實(shí)上,華為自2020年便啟動了AI大模型布局。據(jù)相關(guān)資料顯示,盤古NLP大模型采用深度學(xué)習(xí)和自然語言處理技術(shù),采用了大量中文語料庫進(jìn)行訓(xùn)練,基于“預(yù)訓(xùn)練+下游微調(diào)”的工業(yè)化AI開發(fā)模式,擁有超千億參數(shù),并支持多種自然語言處理任務(wù),包括文本生成、文本分類、系統(tǒng)問答等。
1.華為版ChatGPT:接近GPT3.5水平,注重中文優(yōu)化
根據(jù)華為云官方顯示,華為即將上線的“盤古系列AI大模型”分別為NLP大模型(對標(biāo)ChatGPT)、CV大模型、多模態(tài)大模型與科學(xué)計算大模型。據(jù)介紹,其中NLP大模型在預(yù)訓(xùn)練階段學(xué)習(xí)了超40TB中文文本數(shù)據(jù);CV大模型首次實(shí)現(xiàn)兼顧圖像判別與生成能力;而科學(xué)計算大模型則可應(yīng)用于氣象、生物醫(yī)藥等領(lǐng)域。
來源:網(wǎng)絡(luò)
與ChatGPT相比,盤古NLP大模型在數(shù)據(jù)方面更接近GPT3.5的水平,但其更加注重中文語言優(yōu)化,在中文語法語義理解上有著更大優(yōu)勢,并且其擁有泛化能力強(qiáng)、小樣本學(xué)習(xí)和模型高精度三大特性,可適用大量復(fù)雜的行業(yè)場景,即使少量樣本也能達(dá)到高精度。
根據(jù)華為官方介紹,盤古NLP大模型在總排行榜及分類、閱讀理解單項(xiàng)均排名第一,刷新三項(xiàng)榜單世界歷史紀(jì)錄,總排行榜得分83.046,多項(xiàng)子任務(wù)得分業(yè)界領(lǐng)先,是目前最接近人類理解水平 (85.61)的預(yù)訓(xùn)練模型之一。
2.華為的三個獨(dú)特優(yōu)勢
在大模型研發(fā)方面,華為相比于其他國內(nèi)企業(yè)有著一項(xiàng)較為獨(dú)特的優(yōu)勢——擁有完整的產(chǎn)業(yè)鏈和較強(qiáng)的算力匹配能力。據(jù)介紹,盤古系列大模型都是基于華為Model Arts所構(gòu)建的,并由在2022年蟬聯(lián)全球人工智能算力第一的鵬城云腦二期提供算力底座。在訓(xùn)練盤古大模型時,華為團(tuán)隊(duì)調(diào)用了超過2000塊昇騰910芯片,進(jìn)行了超過2個月的訓(xùn)練。
產(chǎn)業(yè)生態(tài)層面,華為則延續(xù)了自己重B端的企業(yè)基因,大模型產(chǎn)業(yè)化的初衷正是在于開辟更多B端業(yè)務(wù)場景,正如華為云人工智能首席科學(xué)家田奇所言,“將工業(yè)化的一面放置在更高的優(yōu)先級上”。此外,盤古大模型還融入了華為在5G、云計算、物聯(lián)網(wǎng)等領(lǐng)域的技術(shù)優(yōu)勢,可應(yīng)用于智能客服、機(jī)器翻譯、語音識別等多個領(lǐng)域,為企業(yè)提供智能化服務(wù)。
據(jù)中信建投研究報告顯示,目前盤古預(yù)訓(xùn)練大模型能力已在包括能源、零售、金融、工業(yè)等領(lǐng)域得到驗(yàn)證。同時盤古NLP大模型通過遷移學(xué)習(xí)實(shí)現(xiàn)少樣本學(xué)習(xí)目標(biāo),并采用了分布式計算技術(shù),可以實(shí)現(xiàn)模型的在線訓(xùn)練和增量學(xué)習(xí),隨著數(shù)據(jù)量的增加不斷優(yōu)化模型,提高模型的準(zhǔn)確度和質(zhì)量,使其更加適合復(fù)雜的商用場景,在部分應(yīng)用中的表現(xiàn)已超過GPT-3.5。
二、阿里:C端發(fā)力,測評結(jié)果喜人
再來看阿里這邊,無獨(dú)有偶,阿里的中文大模型研發(fā)之路也始于2020年左右。2021年,阿里先后發(fā)布國內(nèi)首個超百億參數(shù)的多模態(tài)大模型“通義-M6”以及號稱“中文版GPT-3”的語言模型PLUG。雖然參數(shù)量僅為270億,但PLUG與GPT-3一樣擁有強(qiáng)大的文本生成能力。
1.通義大模型融合升級
據(jù)報道顯示,即將發(fā)布的阿里達(dá)摩院版ChatGPT,正是基于通義大模型體系融合升級而成。通義大模型底座基于統(tǒng)一學(xué)習(xí)范式OFA等底層技術(shù)打造,在不引入新增結(jié)構(gòu)的情況下即可同時處理文生文、文生圖、圖片描述、內(nèi)容摘要等多項(xiàng)單模態(tài)和多模態(tài)任務(wù)。經(jīng)歷升級后,更是可以處理超過包括語音和動作在內(nèi)的多種跨模態(tài)任務(wù)。
其中“通義-M6”主要解決文本圖像生成構(gòu)建的相關(guān)任務(wù),包括圖文理解、圖文生成、語音理解、語音生成,且阿里2021年發(fā)布的模型版本已達(dá)千億參數(shù);而通義-AliceMind則為NLP預(yù)訓(xùn)練模型,應(yīng)用場景包括文生文、文本理解、問答對話等;通義-視覺應(yīng)用場景則涵蓋視頻表征、圖像檢測、視頻編輯等。
2.阿里內(nèi)部爆料
在此前一份有關(guān)阿里大模型的采訪中,阿里內(nèi)部人員表示:阿里在大模型方面可以提供的方案主要有兩種,一是阿里內(nèi)部推出的模型效果相對較好,可以與集團(tuán)內(nèi)部廣泛的C端產(chǎn)品進(jìn)行結(jié)合,例如天貓、淘寶和高德地圖的搜索業(yè)務(wù),這將為搜索引擎帶來全新的商業(yè)模式,也將為阿里本就蓬勃的C端業(yè)務(wù)注入更多活力,而C端的數(shù)據(jù)積累,也將很好地反哺阿里大模型及相關(guān)應(yīng)用的研發(fā)。此外,阿里還可以輸出自己的API,并向合作伙伴或渠道商收費(fèi)。對于API,可能會在特定領(lǐng)域上對合作伙伴有所幫助,例如電商、搜索推薦等。
而在算力方面,阿里云在云上至少有上萬片A100,整體至少能夠達(dá)到10萬片,集團(tuán)的話應(yīng)該會是阿里云5倍的量級。達(dá)摩院、天貓、淘寶的算力資源都是集團(tuán)內(nèi)資源使用。由于大模型及衍生應(yīng)用研發(fā)等需求,阿里云今年增速會達(dá)到30-50%,個別客戶會有復(fù)現(xiàn)GPT的需求,提出大規(guī)模AI算力需求,阿里將以云的方式進(jìn)行支持。
除此之外,還有爆料顯示,阿里即將推出的類ChatGPT對話機(jī)器人產(chǎn)品還可能將與釘釘生產(chǎn)力工具進(jìn)行結(jié)合,后續(xù)也得到阿里巴巴方面確認(rèn)。
3.B站博主測評:結(jié)果喜人
更值得注意的是,就在近幾天,有B站博主測試了阿里的天貓精靈,發(fā)現(xiàn)其已經(jīng)上線了阿里版ChatGPT的語音助手。對此阿里也進(jìn)行了回應(yīng),表示目前天貓精靈所整合的是大模型技術(shù)Demo,“天貓精靈和達(dá)摩院一直在緊密合作,其中包括推進(jìn)大語言模型、聲學(xué)模型、語音AI等綜合應(yīng)用”。
來源:網(wǎng)絡(luò)
在B站博主所發(fā)布的測評視頻中,博主與集成Demo版大模型的天貓精靈進(jìn)行了超過3分鐘的15輪問答對話,其中10問題的回復(fù)都明顯優(yōu)于國內(nèi)已公布的同類型產(chǎn)品。且在了解到用戶訂餐需求后,天貓精靈同意了用戶請求并表示已幫助用戶完成了訂餐。雖然由于并為集成相應(yīng)接口,Demo版天貓精靈并沒有如它所言完成任務(wù),但相信在正式版發(fā)布后,諸如訂餐、打車、購票等功能均可能得到實(shí)現(xiàn)。
三、專家熱評華為生態(tài)布局扎實(shí)阿里數(shù)據(jù)和算力更優(yōu)
那么,業(yè)內(nèi)專家對于阿里和華為即將發(fā)布的大模型又有哪些評價和看法呢?為此,51CTO采訪到了人工智能技術(shù)專家、前智源研究院政務(wù)創(chuàng)新中心技術(shù)負(fù)責(zé)人劉占亮老師。
據(jù)劉占亮分析,華為在該方面的最主要優(yōu)勢是:華為在toB領(lǐng)域的長期積累使其擁有著非常扎實(shí)的產(chǎn)業(yè)生態(tài),而華為在人工智能方面的全棧布局將有助于企業(yè)在各領(lǐng)域、各不同業(yè)務(wù)中的長期發(fā)展。但從短期角度來看,華為大模型的商業(yè)化進(jìn)展將有可能會受到底層基礎(chǔ)設(shè)施成熟度的影響。
對于阿里而言,其擁有著覆蓋多個行業(yè)的生態(tài)體系,大量C端以及B端的數(shù)據(jù)積累將為阿里大模型研發(fā)提供非常重要的動力,而在算力方面,阿里相比于大部分科技企業(yè)而言也有著巨大的優(yōu)勢。在數(shù)據(jù)和算力優(yōu)勢的加持之下,阿里在大模型研發(fā)及生產(chǎn)應(yīng)用方面的效率應(yīng)該能夠達(dá)到較高水平。
雖然從應(yīng)用領(lǐng)域與目標(biāo)用戶的角度來看,華為和阿里兩家企業(yè)可能會有所不同。但歸根結(jié)底,兩家公司都有潛力推動中國人工智能領(lǐng)域發(fā)展。
但在此之前,劉占亮還指出,擺在這兩位巨頭眼前的還有三大主要挑戰(zhàn),其一是需要應(yīng)對國內(nèi)外激烈的市場競爭;其二是需要對潛在的政治風(fēng)險做到0失誤的精準(zhǔn)控制;其三則是老生常談的技術(shù)挑戰(zhàn),無論華為還是阿里,在自身業(yè)務(wù)層面都有著非常豐富的經(jīng)驗(yàn)積累,那么其所研發(fā)的大模型及一系列衍生產(chǎn)品能否在實(shí)際生產(chǎn)中發(fā)揮更高的效率,這考驗(yàn)的便是企業(yè)對于特定領(lǐng)域技術(shù)的應(yīng)用與理解。
四、國產(chǎn)化ChatGPT才是出路
近期以來,ChatGPT陷入了一些列紛爭之中,由于非法收集用戶數(shù)據(jù)的原因,意大利已進(jìn)行了對ChatGPT的全面禁封,德國也出于對數(shù)據(jù)保護(hù)的考慮,正在計劃在全國范圍內(nèi)禁止ChatGPT的使用。而在不久前,ChatGPT也針對亞洲地區(qū)進(jìn)行了一次悄無聲息的大規(guī)模封號。就以上事件看來,依靠ChatGPT,微軟與OpenAI已經(jīng)成為事實(shí)上的頭號玩家,而這對于國內(nèi)企業(yè)類似產(chǎn)品的發(fā)展而言,不管是封禁還是封號,都并不是一個良好的勢頭。
誠然,由于中文天然的復(fù)雜性,實(shí)現(xiàn)中文版ChatGPT的難度將會變得更大,但國內(nèi)科技企業(yè)能夠在這一時期,利用自身優(yōu)勢研發(fā)針對不同業(yè)務(wù)場景的同類型模型及應(yīng)用,無論是出于對自身利益的考量還是出于對更高理想的追求,這本身都是一件值得鼓勵的事情。人工智能的發(fā)展在帶來科技革命的同時,也注定會帶來同一賽道上的百家爭鳴,不管是企業(yè)層面,還是全球?qū)用?,都避無可避。
五、寫在最后
如今,ChatGPT成為下一代操作系統(tǒng)的“敘事”剛剛開始,其所帶來的強(qiáng)大的生產(chǎn)力提升必將賦能千行百業(yè),并帶來巨大的商業(yè)機(jī)會。在這樣的情況下,自主可控與合理監(jiān)管才是每個國家、每家科技企業(yè)甚至每位技術(shù)從業(yè)者應(yīng)該關(guān)注與思考的問題。
雖然就目前而言,無論百度、華為、阿里還是其他正在深耕該領(lǐng)域的科技企業(yè),都暫時無法推出能與GPT-4一較高下的AI大模型。但有時后發(fā)未必一定是壞事,讓我們給予它們一些信心與時間,相信在這些企業(yè)與技術(shù)從業(yè)者的不斷努力下,國內(nèi)AIGC生態(tài)建設(shè)自主化的步伐將能夠越走越快。
參考鏈接:
??https://www.ithome.com/0/684/394.htm??
??https://www.zhihu.com/question/456443707/answer/1894670995??
??https://baijiahao.baidu.com/s?id=1762214043619898211??