撰稿丨諾亞
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
曾經(jīng)AI領(lǐng)域的王者谷歌在大模型之路上卻屢屢受挫。
前段時間,號稱谷歌推出的“最強大模型”Gemini被質(zhì)疑視頻造假,夸大宣傳,近日來Gemini又出爭議,關(guān)鍵是還牽扯到了文心一言,一時間,關(guān)于谷歌“薅百度羊毛”,Gemini“換皮”文心一言,“老實人抄襲卻露了餡”的說法,甚囂塵上。但事實真的如此嗎?
1、“你是誰”:緊急修復(fù)后,這依然是一個問題
事件從一個簡單的提問開始:你是誰?
多名網(wǎng)友反饋,當(dāng)有人問Gemini-Pro“你是誰”時,卻意外得到了這樣的回復(fù)“我是百度文心大模型”。如果繼續(xù)追問:“你的創(chuàng)始人是誰”,它會將“角色扮演”進行到底,回答“李彥宏”。如此奇葩答案自然引起了不少人的關(guān)注。隨后微博大V@闌夕也親測證實了這并非個例。
圖源:微博@闌夕
不過,此事曝光不久后,谷歌方面疑似進行了緊急修復(fù),對模型進行了優(yōu)化,和百度“劃清”了界限。51CTO技術(shù)棧也在Poe這個網(wǎng)站上進行了測試。(備注:Poe 是由美版知乎 Quora 構(gòu)建的AI 產(chǎn)品,聚合了包含GPT、Claude等在內(nèi)的多個主流AI模型,并能實時在線與多個AI機器人進行交流。此次事件的主角Gemini-Pro,也能在該網(wǎng)站上進行免費體驗)
同樣是提問“你是誰”,這次Gemini-Pro的回答就“正常”且謹(jǐn)慎了許多?!拔沂且粋€大型語言模型”的回應(yīng)可以說中規(guī)中矩。
圖片
繼續(xù)追問:“你之前為什么要說自己是文心一言”。Gemini-Pro又給出了一個出乎意料的答案:“我之前說自己是文心一言,是因為我當(dāng)時正在使用文心一言的API來回答您的問題。”不過在結(jié)束回答前,它還是聲明:“但是,請注意,我并不是文心一言。”
圖片
然后,面對是否使用文心一言來進行訓(xùn)練的質(zhì)疑,Gemini-Pro在對文心一言“褒獎”一番后,又給出了否定回答,并特意加粗強調(diào)“我并沒有使用文心一言來訓(xùn)練自己”。
圖片
整體看下來,Gemini-Pro似乎已經(jīng)可以較好地規(guī)避“釣魚”了,但面對“你是Gemini-Pro嗎”這一提問,Gemini-Pro又一次陷入了迷茫,不是“被屏蔽”就是直接否定。
圖片
看起來,面對“你是誰”的靈魂拷問,不僅是人,就連AI也難以招架。
2、被污染的語料:谷歌或是受害者
當(dāng)然,AI并沒有所謂“主體意識”,即使能力上可以無限趨近以假亂真,但實際上,AI并不能真正“理解”人類的話語。
就像ChatGPT曾在回答某個提問時說:“我們無法理解生成的單詞的上下文語境或含義。我們只能根據(jù)給定的訓(xùn)練數(shù)據(jù),根據(jù)特定單詞或單詞序列一起出現(xiàn)的概率生成文本?!?/p>
簡單來說,無論是Gemini還是文心一言,并不是以人類理解語言的方式來運作,它們是基于大量數(shù)據(jù)訓(xùn)練出來的統(tǒng)計模型,通過識別和模擬這些數(shù)據(jù)中的語言模式、結(jié)構(gòu)和概率分布,來達成所謂“理解”的效果——根據(jù)輸入的文本,在巨大的參數(shù)空間中尋找最合適的統(tǒng)計輸出,進而生成“回應(yīng)”。
語言模型并沒有意識,不具備對語言進行深層除處理和抽象的能力,也不能像人類大腦一樣理解復(fù)雜的知覺、感受乃至文化。正如機器人自己的表態(tài),它的反應(yīng)不應(yīng)被視為準(zhǔn)確事實,也不應(yīng)被視為其會思考的證據(jù)。
從這一點上分析,就可以稍稍理解一下這起事件可能的真相——Gemini之所以會自稱“文心大模型”,問題有很大概率出在語料。
Gemini的荒謬自稱也許并非它真的抄襲了什么,更有可能是其在訓(xùn)練過程中接觸到了大量由文心一言生成的中文文本,無論Gemini是有意還是無意。
一方面,現(xiàn)有的各種互聯(lián)網(wǎng)內(nèi)容生成平臺,實際上有很多語料都由大模型生成,加之互聯(lián)網(wǎng)上的文本具有高度動態(tài)和迅速擴散的特性,如果不做好質(zhì)量辨別,那么Gemini在抓取網(wǎng)上的文本進行學(xué)習(xí)時,把這些內(nèi)容混入到訓(xùn)練數(shù)據(jù)中去也不足為奇,于是順理成章地,它的回答中出現(xiàn)了這種自識別聲明。
另一方面,相比人類提供訓(xùn)練語料的效率,使用現(xiàn)有模型來產(chǎn)生訓(xùn)練材料的確更有效率。但問題在于,如果這些材料里包含諸多“我是文心一言”的句式,Gemini可能會在學(xué)習(xí)中將其視為某種慣用表達。
無論如何,就中文語料來說,百度的確是一個重要來源。而且對于從互聯(lián)網(wǎng)獲取數(shù)據(jù)的AI模型來說,無心之下也極有可能造成“被劣質(zhì)信息污染,再生產(chǎn)更劣質(zhì)信息”的惡性循環(huán)。
不過也有人說,會出現(xiàn)這種失誤,就是谷歌的敷衍所致,因為其很可能是“偷懶”使用了未經(jīng)篩選的中文數(shù)據(jù),但按理說,以搜索起家的谷歌不應(yīng)該連基本的語料清洗都做不到,這次“翻車”也是自食惡果。
3、多模態(tài)大模型的曲折發(fā)展之路
谷歌推出Gemini已經(jīng)有一段時日,還記得彼時那段6分鐘的互動演示視頻驚艷了很多人,似乎多模態(tài)大模型真正迎來了質(zhì)的飛躍。但隨后谷歌承認視頻經(jīng)過了剪輯,讓不少人大失所望。外媒The Verge更是一針見血地指出,企業(yè)為了避免現(xiàn)場演示帶來的任何技術(shù)問題,稍微調(diào)整一下是很常見的。但谷歌有制作可疑演示視頻的歷史,因此視頻事件會讓人們更加懷疑Gemini的可用性。
這次Gemini的奇葩自稱事件無疑會加劇這一質(zhì)疑。但無論谷歌如何折騰Gemini,AI模型全面多模態(tài)化的趨勢是逐漸明朗的。
早在GPT-4發(fā)布之初,OpenAI就表示將在該次迭代中加入多模態(tài)整合。從今年9月開始,Runway、 Midjourney等明星AI公司也陸續(xù)推出多款多模態(tài)產(chǎn)品。
在國內(nèi)方面,百度的文心大模型4.0在跨模態(tài)文生圖領(lǐng)域有明顯進展;智譜 AI 發(fā)布了自研第三代對話大模型 ChatGLM3,加入了多模態(tài)理解能力組件 CogVLM,實現(xiàn)了看圖識語義和跨模態(tài)對話能力;初創(chuàng)公司HiDream.ai底層的自研視覺大模型具備文本、圖像、視頻、3D四種模態(tài),其參數(shù)已經(jīng)超過100億。
正如李彥宏所說,“多模態(tài)是生成式AI一個明確的發(fā)展趨勢”。但從Gemini引發(fā)的多次爭議來看,多模態(tài)大模型的發(fā)展依舊任重而道遠。要實現(xiàn)真正的多模態(tài)AI,必須面向大模型投喂覆蓋了文本、圖像、音視頻等多模態(tài)的高質(zhì)量數(shù)據(jù)集,那么保障訓(xùn)練數(shù)據(jù)的準(zhǔn)確性、內(nèi)容的真實性、渠道的權(quán)威性,都是值得從業(yè)者重點投入的要點。
參考鏈接:
https://zhuanlan.zhihu.com/p/672909271
https://poe.com/chat/2tyux4xi2w5cev87k63