2025年大數(shù)據(jù)重回焦點(diǎn),決定AI成敗
又到了每年人們發(fā)布對(duì)未來(lái)一年預(yù)期的前十或前二十大榜單的時(shí)候了。與往常一樣,我沒(méi)有隨波逐流再列一個(gè)榜單,而是將我對(duì)未來(lái)一年的預(yù)測(cè)限定在一個(gè)引人注目的趨勢(shì)上。
未來(lái)一年,大數(shù)據(jù)將重回人們的視野。數(shù)據(jù)正在變得比“新石油”更重要,它正在成為新的貨幣。大約十年前,隨著分析成為商業(yè)成功的關(guān)鍵路徑,大數(shù)據(jù)開(kāi)始受到廣泛關(guān)注,但后來(lái)由于大數(shù)據(jù)無(wú)處不在,這一術(shù)語(yǔ)也變得不再重要。
在過(guò)去兩年中,在GenAI引發(fā)的所有興奮中,數(shù)據(jù)——或?qū)?shù)據(jù)質(zhì)量和可信度的關(guān)注——似乎都被GenAI所帶來(lái)的華麗圖示和極具洞察力的見(jiàn)解所掩蓋。現(xiàn)在,隨著GenAI對(duì)商業(yè)至關(guān)重要,人們意識(shí)到他們的AI基礎(chǔ)是建立在一堆松散的沙子上的。
當(dāng)AI出現(xiàn)“幻覺(jué)”時(shí),并不是因?yàn)樗摹靶乃肌痹谟巫?,因?yàn)樗緵](méi)有心思可言,它只是根據(jù)概率運(yùn)行,抓取下一個(gè)可用的相關(guān)數(shù)據(jù)來(lái)完成敘述。
現(xiàn)在,甚至有人擔(dān)心我們開(kāi)始缺乏足夠的數(shù)據(jù)來(lái)喂養(yǎng)這些機(jī)器。“世界上大多數(shù)公開(kāi)可用的數(shù)據(jù)——無(wú)論是合法獲得的還是非法獲得的——都已經(jīng)被耗盡了?!盋onstellation Research的高級(jí)分析師Andy Thurai表示,這種瘋狂何時(shí)才能結(jié)束,對(duì)吧?
因此,沒(méi)錯(cuò),2025年數(shù)據(jù)將再次成為焦點(diǎn),因?yàn)槲覀冃枰罅康臄?shù)據(jù),而且這些數(shù)據(jù)必須非常好、非常及時(shí)。
“在2010年代,所謂的大數(shù)據(jù)時(shí)代,數(shù)據(jù)風(fēng)靡一時(shí),”dbInsight的負(fù)責(zé)人Tony Baer表示,“隨著云計(jì)算規(guī)模使大數(shù)據(jù)成為常態(tài),我們開(kāi)始理所當(dāng)然地獲取和管理大量數(shù)據(jù),然后去年GenAI橫空出世,風(fēng)險(xiǎn)基金開(kāi)始瘋狂追逐AI?!?/p>
Qlik的一份報(bào)告指出,大數(shù)據(jù)和AI“具有協(xié)同效應(yīng)”?!按髷?shù)據(jù)分析利用AI進(jìn)行更好的數(shù)據(jù)分析。反過(guò)來(lái),AI需要大規(guī)模的數(shù)據(jù)來(lái)學(xué)習(xí)和改進(jìn)決策過(guò)程?!?/p>
大數(shù)據(jù)將決定AI的成敗?!半m然AI一直依賴于用于訓(xùn)練和測(cè)試的數(shù)據(jù),但越來(lái)越明顯的是,數(shù)據(jù)才是AI獲勝的關(guān)鍵因素?!盩hurai表示。
Presidio對(duì)1000名IT高管的調(diào)查顯示,至少有86%的高管報(bào)告了與數(shù)據(jù)相關(guān)的AI障礙,如難以獲得有意義的見(jiàn)解和實(shí)時(shí)數(shù)據(jù)訪問(wèn)問(wèn)題,其中一半人認(rèn)為他們?cè)谕耆珳?zhǔn)備好之前就匆匆投入了GenAI。
風(fēng)險(xiǎn)投資界仍然對(duì)AI充滿熱情,“但你猜怎么著?這需要高質(zhì)量、經(jīng)過(guò)驗(yàn)證的數(shù)據(jù),而且不能侵犯隱私或數(shù)據(jù)主權(quán)?!盉aer表示。
因此,人們?cè)絹?lái)越強(qiáng)調(diào)檢索增強(qiáng)生成(RAG)解決方案,這是標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)和大型語(yǔ)言模型之間的橋梁,Baer說(shuō)。
Baer提到了AI Alliance(一個(gè)由領(lǐng)先科技公司組成的聯(lián)盟)的最新公告,該公告強(qiáng)調(diào)了建立可信數(shù)據(jù)基礎(chǔ)的重要性。
AI Alliance在宣布其開(kāi)放可信數(shù)據(jù)倡議的一份聲明中表示:“數(shù)據(jù)是AI模型和系統(tǒng)最重要的組成部分,然而如今AI所用的數(shù)據(jù)往往來(lái)源不明、授權(quán)不清,并且在語(yǔ)言、模態(tài)和專家領(lǐng)域的質(zhì)量和多樣性方面存在巨大差距。”
該倡議的目標(biāo)是發(fā)布“大規(guī)模開(kāi)放、許可寬松的數(shù)據(jù)集,這些數(shù)據(jù)集在所有對(duì)AI至關(guān)重要的領(lǐng)域和模態(tài)中都具有清晰的來(lái)源和血統(tǒng)”。該倡議匯集了來(lái)自Pleias、BrightQuery、Common Crawl、ServiceNow、Hugging Face、IBM、Allen Institute for AI、Cornell、Aitomatic、Tokyo Electron和EPF等20多個(gè)組織的150多名參與者。
該倡議的成員“正致力于開(kāi)發(fā)更好的要求、流程和工具來(lái)管理數(shù)據(jù)集,使其更加透明、可信、準(zhǔn)確,并得到廣泛應(yīng)用”。
除了完善開(kāi)放可信數(shù)據(jù)的規(guī)范外,聯(lián)盟成員還計(jì)劃構(gòu)建可信數(shù)據(jù)處理的工具和發(fā)布管道,包括端到端的血統(tǒng)跟蹤功能。聯(lián)盟還打算“顯著擴(kuò)展數(shù)據(jù)目錄,旨在包含世界上大多數(shù)語(yǔ)言的數(shù)據(jù)、高質(zhì)量多模態(tài)數(shù)據(jù)的大型存儲(chǔ)庫(kù)(包括圖像、音頻和視頻),以及時(shí)間序列和科學(xué)模態(tài)”。
隨著全球數(shù)據(jù)變得越來(lái)越寶貴,Thurai預(yù)見(jiàn)領(lǐng)先的大型語(yǔ)言模型之間的差異將越來(lái)越小。因此,企業(yè)將轉(zhuǎn)向更狹窄或更專注的模型,這些模型利用特定行業(yè)的數(shù)據(jù)。例如,針對(duì)金融行業(yè)的BloombergGPT、Google專為醫(yī)療保健行業(yè)開(kāi)發(fā)的Med-PaLM2,以及基于大量法律案件、法規(guī)和監(jiān)管來(lái)源訓(xùn)練的Paxton AI法律語(yǔ)言模型。
Thurai表示,BloombergGPT“是一個(gè)擁有500億個(gè)參數(shù)的LLM(大型語(yǔ)言模型),專門(mén)在廣泛的金融數(shù)據(jù)上進(jìn)行訓(xùn)練。因此,在金融自然語(yǔ)言處理任務(wù)方面,它比其他AI模型表現(xiàn)更好,甚至超過(guò)了同樣規(guī)模的開(kāi)放模型?!?/p>
Thurai介紹稱,Med-PaLM2“在大量醫(yī)療數(shù)據(jù)集上進(jìn)行訓(xùn)練,包括教科書(shū)、研究論文、患者記錄等,這種密集訓(xùn)練幫助該模型獲得了深厚的醫(yī)學(xué)知識(shí),使其能夠理解醫(yī)療保健領(lǐng)域使用的復(fù)雜語(yǔ)言和概念?!?/p>
Thurai表示,Paxton AI法律語(yǔ)言模型“提供了對(duì)美國(guó)所有50個(gè)州和聯(lián)邦司法管轄區(qū)的數(shù)百萬(wàn)個(gè)法律來(lái)源(包括法律、法院裁決和法規(guī))的實(shí)時(shí)訪問(wèn)”。
隨著來(lái)自各種來(lái)源的大數(shù)據(jù)不斷增加,合成數(shù)據(jù)的使用也將增加,但Thurai建議謹(jǐn)慎采用?!袄煤铣蓴?shù)據(jù)來(lái)訓(xùn)練AI模型現(xiàn)在已經(jīng)成為一個(gè)更大的家庭手工業(yè),”他表示,“雖然其中很多都用于填補(bǔ)數(shù)據(jù)盲點(diǎn),但有時(shí)這可能適得其反。通過(guò)使用AI來(lái)生成數(shù)據(jù),可能會(huì)產(chǎn)生僅基于預(yù)期場(chǎng)景訓(xùn)練的模型,這些模型在現(xiàn)實(shí)世界中遇到意外問(wèn)題時(shí)可能會(huì)束手無(wú)策?!?/p>