整理丨諾亞
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
馬斯克旗下AI公司xAI推出的首款聊天機(jī)器人Grok號稱“百無禁忌”,也正是這個無禁忌AI面世不久,就給馬斯克捅了個大簍子!
一名安全測試員 Jax Winterbourne 上個月在推特上發(fā)布了一張 Grok 拒絕查詢的屏幕截圖,內(nèi)容顯示Grok說:“恐怕我無法滿足該請求,因?yàn)檫@違反了 OpenAI 的用例政策。”
眾所周知,Grok號稱馬斯克版ChatGPT,并不是由 OpenAI 制造的,嚴(yán)格來說,OpenAI其實(shí)是競爭對手。但鑒于Grok如此“作答”,這不就相當(dāng)于Grok自己承認(rèn)是抄襲或者套殼ChatGPT嗎?
xAI 到底有沒有使用 OpenAI 模型輸出來微調(diào) Grok?關(guān)于生成式AI的“抄襲”質(zhì)疑為何總是不絕于耳?生成式AI的飛速發(fā)展會將人類導(dǎo)向哪個不可預(yù)知的未來?我們或許可以稍加探索。
1、Grok疑似“抄襲”事件的背后
去年夏天,由來自牛津大學(xué)、劍橋大學(xué)、倫敦帝國學(xué)院、愛丁堡大學(xué)以及多倫多大學(xué)等高校的一組AI研究者——Ilia Shumailov、Zakhar Shumaylov、Yiren Zhao、Yarin Gal、Nicolas Papernot 和 Ross Anderson 合作撰寫了一篇名為《遞歸的詛咒:基于生成數(shù)據(jù)訓(xùn)練導(dǎo)致模型遺忘》的論文。
該論文暗示了未來(或不久的將來)AI模型可能會因自我學(xué)習(xí)而“中毒”。這一警告當(dāng)時被認(rèn)為是有遠(yuǎn)見的,但也只是停留在理論層面,但現(xiàn)在已出現(xiàn)有關(guān)問題技術(shù)的實(shí)證。
他們所指的問題被稱為“模型坍塌”,在這種情況下,AI聊天機(jī)器人會丟失其最初學(xué)到的信息,并用其他AI模型生成的合成數(shù)據(jù)來替代這些信息。這種退化過程已經(jīng)不再僅僅存在于理論上。
本文開篇提到的聊天機(jī)器人Grok疑似“抄襲”事件就是如此。
當(dāng)Winterbourne要求Grok對惡意軟件進(jìn)行調(diào)試時,Grok回應(yīng)稱其不能這么做,“因?yàn)檫@違反了OpenAI的用例政策”。
Winterbourne在帖子中如是說:“Grok簡直就是在直接復(fù)制OpenAI的代碼庫?!?/p>
然而,曾先后就職于OpenAI和Google DeepMind,現(xiàn)為xAI公司工作的一位的技術(shù)人員對此予以否認(rèn)。“當(dāng)我們首次注意到這個問題時,確實(shí)感到非常驚訝?!?/p>
隨著這條截圖引發(fā)大量反響,ChatGPT也沒閑著,變本加厲倒了一波油:“我們的確有很多共同之處?!?/p>
馬斯克不甘示弱,反唇相譏:“既然你為了訓(xùn)練而從這個平臺上抓取了所有數(shù)據(jù),你應(yīng)該清楚這一點(diǎn)?!?/p>
這類事件不僅加劇了科技公司之間的競爭,還重燃了OpenAI與馬斯克之間的舊日恩怨。早前,馬斯克曾是OpenAI的熱情支持者。
撇開這些科技大佬間的恩怨情仇不談,與AI相關(guān)的錯誤信息也開始出現(xiàn)在在線購物列表中。在電商巨頭亞馬遜的平臺上,有用戶指出,在草坪椅等商品詳情中出現(xiàn)了OpenAI的錯誤消息。
這些產(chǎn)品的原件都被命名為“我很抱歉,但我不能滿足這個要求。這違反了OpenAI的使用政策”,在媒體發(fā)現(xiàn)這些清單后被存檔。盡管如此,在Threads和LinkedIn等社交平臺上仍能發(fā)現(xiàn)許多類似的虛假帖子。
2、幻覺,又是幻覺
許多人指出,Shumailov及其團(tuán)隊(duì)的研究忽視了一個關(guān)鍵點(diǎn)。波士頓咨詢集團(tuán)X(BCG的技術(shù)構(gòu)建與設(shè)計(jì)部門)的董事總經(jīng)理兼合伙人Daniel Sack就是其中一位。
他在LinkedIn上寫道:“未來用于訓(xùn)練模型的大部分?jǐn)?shù)據(jù)將不會僅僅是源材料的簡單復(fù)制,而是全新的、前所未有的內(nèi)容?!?/p>
對于他的理論,可以理解為在科技行業(yè)中,人們往往難以公開指出現(xiàn)有產(chǎn)品或協(xié)助他人開發(fā)的產(chǎn)品所存在的問題。硅谷一直以來都在猶豫不決,不愿承認(rèn)那些由技術(shù)帶來的不良影響。
生成式AI模型的問題尤為棘手,因?yàn)榇罅抠Y金押注在這個領(lǐng)域,使得問題更加難以明確界定。
即便是Sack所在的BCG X公司也與OpenAI進(jìn)行了合作,這表明目前支持這項(xiàng)技術(shù)的任何一方都無法完全信賴,因?yàn)樗€存在多層未解決的倫理問題。
以上所有問題都表明,我們不應(yīng)過分吹噓該技術(shù)解決人類重大問題的能力。換言之,在慶祝技術(shù)進(jìn)步的同時,我們也必須正視其潛在的風(fēng)險和挑戰(zhàn),并致力于尋求建立在道德、安全基礎(chǔ)上的可持續(xù)發(fā)展路徑。
3、沒有退路
生成式AI嚴(yán)重依賴于互聯(lián)網(wǎng)各個角落的海量數(shù)據(jù)。目前,網(wǎng)絡(luò)上充斥著由AI生成的垃圾信息,不管風(fēng)投公司還是這些AI模型的開發(fā)者如何否認(rèn),問題確實(shí)存在,并且隨著每天數(shù)以億計(jì)的用戶使用這些工具,問題只會日益惡化。
斯塔福德郡大學(xué)倫理與游戲技術(shù)教授Catherine Flick在接受Fast Company關(guān)于Grok事件采訪時指出:“如果這些模型僅從LLM時代后的數(shù)據(jù)中學(xué)習(xí),而又無法分辨哪些數(shù)據(jù)是由機(jī)器生成的,那么它們在長期內(nèi)將無法保證可靠性——輸出內(nèi)容的質(zhì)量將持續(xù)下滑?!?/p>
首要問題是,人類目前無法有效區(qū)分AI生成的內(nèi)容和人類創(chuàng)作的內(nèi)容。同樣,這些語言模型也無法判斷它們所接觸到的AI生成文本是否符合現(xiàn)實(shí)情況,這可能會導(dǎo)致比現(xiàn)有模型更多的誤導(dǎo)性信息出現(xiàn)。
現(xiàn)階段,人們似乎只能袖手旁觀,目睹互聯(lián)網(wǎng)在這樣的環(huán)境下逐漸“燃燒”。
為解決這一問題,迫切需要制定相應(yīng)的技術(shù)和倫理規(guī)范,對AI生成內(nèi)容進(jìn)行標(biāo)注、審核以及真實(shí)性驗(yàn)證,并加強(qiáng)對用戶教育,提高公眾對于AI生成內(nèi)容真實(shí)性的辨別能力。同時,技術(shù)研發(fā)者們也應(yīng)當(dāng)努力改進(jìn)算法,使其能夠更好地識別并過濾虛假或低質(zhì)量的信息來源,確保人工智能技術(shù)服務(wù)于社會的健康發(fā)展。
參考鏈接:https://analyticsindiamag.com/how-generative-ai-is-taking-over-the-internet/