AI大牛周明發(fā)布MChat:生成可控,參數(shù)規(guī)??韶摀槺愎傩诵氯谫Y
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
大模型賽道又有融資新動態(tài):
語言大模型玩家瀾舟科技,剛剛完成了Pre-A+輪融資。
本輪融資由北京中關村科學城公司領投,斯道資本和創(chuàng)新工場跟投。這是瀾舟科技1年內(nèi)收獲的第2輪融資,2輪累計總額數(shù)億元。
不止于此。和融資消息一同公布的還有瀾舟科技推出的語言生成模型,孟子MChat可控大模型。
它有類ChatGPT的能力,加上原來瀾舟科技孟子大模型N個項目功能引擎,最終呈現(xiàn)出來的MChat,既有對話能力,又具備翻譯、生成、信息搜索等能力。
關于MChat,瀾舟科技創(chuàng)始人兼CEO周明還作了如下介紹:
- 將陸續(xù)推出10B和100B參數(shù)級的大模型;
- 具備聊天、問答、翻譯、文本生成、信息抽取等多種能力;
- 可融合搜索結(jié)果、領域數(shù)據(jù)和知識圖譜;
- 對功能、風格、人類認知等方面具可控性。
孟子MChat可控大模型
本次融資是創(chuàng)新工場對瀾舟科技的“繼續(xù)跟投”。
創(chuàng)新工場董事長兼CEO李開復在3月14日的趨勢分享會上談到,AI已經(jīng)來到從1.0邁入2.0的拐點。
順著這個思路,MChat可以視為瀾舟科技嘗試從平臺和基礎設施兩個層面邁入AI 2.0時代的具體動作:
首先,發(fā)布迭代而來的孟子MChat可控大模型,視其為通用底座,提供語言預訓練模型、多模態(tài)預訓練模型、垂直領域預訓練模型等能力。
其次,再在其上架構(gòu)能力平臺,提供知識圖譜、輔助寫作、機器翻譯等模塊化能力。
據(jù)周明介紹,團隊走訪了100多家公司,發(fā)現(xiàn)市場需求迥異。這種情況下,瀾舟科技認為在更垂類的賽道做定向優(yōu)化顯得尤為重要。
也因此延伸出孟子大模型技術體系的特點之一,更多樣化。
具體而言,就是孟子支持BERT(分析類)、GPT(生成類)和T5(翻譯類)等架構(gòu),能夠覆蓋閱讀理解、文本生成、機器翻譯、對話等不同場景。
值得注意的是,MChat雖然具有ChatGPT同樣的對話能力,但兩者有所不同。
ChatGPT盡可能將多模態(tài)數(shù)據(jù)納入訓練庫,數(shù)據(jù)量越大越好,不甄別數(shù)據(jù)好壞;
而MChat強調(diào)“可控性”。
一是功能可控,即根據(jù)具體需求加減可調(diào)用的具體功能;二是結(jié)果可控,保證輸出內(nèi)容的健康、良性。
“未來我們是想繼續(xù)探索從AI 1.0到2.0到AGI,”周明說,“不過AGI有點太遠,但下一步已經(jīng)確定,就是從單語言擴展到更多的語言?!?/p>
選擇在這個時間點進軍AI 2.0時代,瀾舟科技似乎地利不足,放眼大模型創(chuàng)業(yè)領域,千帆競賽;但好處是已有諸多鋪墊,且孟子輕量化模型的能力已經(jīng)經(jīng)過驗證。
MChat背后依托的孟子大模型,是瀾舟科技自研技術研發(fā)的大規(guī)模預訓練語言模型,于2021年7月推出。
可處理多語言、多模態(tài)數(shù)據(jù),同時支持多種文本理解和文本生成任務,快速滿足不同領域、不同應用場景的需求。
與追求打造AGI不同,基于Transformer架構(gòu)的孟子,行進路線是輕量化——僅包含10億參數(shù)。
靠這10億參數(shù),孟子大模型在中文語言理解領域最具權(quán)威性的測評基準CLUE上屢次刷榜第一,四兩撥千斤,擊敗其他公司百億甚至千億的模型。
到具體的應用層面,同花順、華夏基金為代表的金融領域,以及中文在線代表的文案寫作領域,瀾舟科技都以孟子大模型為底座提供了能力支撐。
NLP大牛周明
瀾舟科技是以NLP技術為基礎的認知智能公司,由AI大牛周明創(chuàng)辦的公司,成立于2021年6月。
周明,當今NLP領域成就最高的華人之一,他不僅是中國第一個中英翻譯系統(tǒng)的研制者,還在2019年成為AI語言領域最高級頂會ACL(國際計算語言協(xié)會)主席。
1991年在NLP重鎮(zhèn)哈工大拿到博士學位后,周明進入清華任教;1999年被微軟亞洲研究院創(chuàng)始院長李開復挖走,后來不久成為NLP研究組負責人。
2020年離開MSRA加盟創(chuàng)新工場擔任首席科學家時,周明已擔任MSRA副院長多年。
從工作21.5年的MSRA出走的原因,周明有些戲謔地解釋:
“2020年年底,我隱隱約約感知到未來大模型要興起,所以毅然決然離開微軟,成立瀾舟科技,專門從事大模型研究?!?/p>
據(jù)介紹,除了孟子大模型外,目前瀾舟科技已經(jīng)開源了近20個大模型。
如果真如李開復所說,AI來到了從1.0過渡到2.0的拐點,這對NLP意味著什么?
周明一邊提到,AI 2.0反映在NLP,能看到GPT這樣的通用模型,一套模型解決很多問題,效率大幅提升;一邊又提出了兩個現(xiàn)象:
一是AI 2.0時代的NLP能力足夠強,在處理新任務時只需用一個提示詞來代替它的能力;
二是模型大到一定程度時,會涌現(xiàn)新的能力,尤其是會迸發(fā)出一些從未見到過的能力。
他個人表示出對新能力涌現(xiàn)的格外關注,因為涌現(xiàn)這件事目前還是未解之謎,“唯一能啟迪你的是在能力范圍之內(nèi),盡量把模型做的比較大”。
ChatGPT身上的邏輯和思維能力,就是由GPT系列模型的大力出奇跡出品。既然如此,瀾舟科技會不會也在模型參數(shù)上加碼?
周明直截了當?shù)鼗卮穑?span style="color: #00997f;">瀾舟不會去追從千億、萬億大模型。
我們會尊重大模型,把模型做到相當大,但同時快速考慮它的落地。