2024年大數據不完全預測
人工智能的進步可能是2024年的主要推動力,也凸顯出大數據的挑戰(zhàn)——如何存儲、管理、管理和使用大數據——從未如此緊迫。,因為如果作為基石的數據失控,人工智能就沒有意義了。當然反之亦然。
在新的一年里,大數據會給我們帶來什么?盡管科技發(fā)展很難預測,行業(yè)專家仍然試圖通過對大數據領域的預測,為我們揭示未來。
數據庫提供商Percona的技術傳道者Dave Stokes表示,人們對矢量數據庫的興趣將會激增。然而,它無法“獨當一面”。
Stokes預測:“矢量數據庫將成為許多人討論的熱門新領域,但幾年后最終將被關系數據庫所吸收?!薄懊扛?0年左右,就會有一種‘新’數據庫技術被宣布為關系數據庫,開發(fā)人員也會加入這一潮流,結果卻發(fā)現關系模型非常靈活,關系數據庫供應商可以輕松地將新技術應用到他們的產品中。
不同數據孤島的存在一直是數據工程師的眼中釘。但據Hammerspace的營銷高級副總裁Molly Presley稱,2024年將帶來一線希望,因為一種集中式的數據編排形式將占據中心位置。
“組織將開始從‘存儲和復制’轉向數據編排的世界。”Presley說,“在人工智能進步的推動下,現在存在強大的工具來分析數據并梳理出可操作的見解。然而,文件存儲基礎設施并沒有跟上這些進步的步伐。與試圖通過將文件副本從一個地方移動到另一個地方來管理存儲筒倉和分布式環(huán)境的解決方案不同,數據編排幫助組織將來自不同筒倉和位置的數據集成到單個命名空間中,并在最有價值的時間和地點自動放置數據,從而更容易分析和獲得見解。”
我們存儲的大多數數據都是非結構化的。MinIO的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Periasamy表示,隨著數據的堆積,管理起來真的是一個挑戰(zhàn),但2024年將帶來新的管理方法。
“到2024年,隨著人工智能應用的飛速發(fā)展,我們將看到企業(yè)真正的非結構化數據(音頻、視頻、會議記錄、演講、演示)出現爆炸式增長。從人工智能的角度來看,這是高度‘可學習’的內容,將其收集到人工智能數據湖中將大大提高整個企業(yè)的智能能力,但它也帶來了獨特的挑戰(zhàn)?!? Periasamy說,“保持數十PB數據的性能存在明顯的挑戰(zhàn)。這些問題通常不能用傳統(tǒng)的SAN/NAS解決方案解決——它們需要現代的、高性能的對象存儲的屬性。這就是為什么大多數AI/ML技術(如OpenAI、Anthropic、Kubeflow)都利用對象存儲,以及為什么大多數數據庫都轉向以對象存儲為中心。”
根據Forrester的研究,企業(yè)管理的非結構化數據將在2024年翻一番,為人工智能開辟了潛在的有利可圖的新選擇。
該分析集團表示:“全球數據和分析決策者表示,他們組織管理的數據中只有27%是非結構化的?!彪S著公司為客戶和員工推出更多的對話體驗,生成式人工智能將使這一數字翻一番。企業(yè)將爭相存儲、分析和理解這些大量的非結構化數據。這一趨勢將出現在數據管道領域,到2024年,80%的新數據管道將用于獲取、處理和存儲非結構化數據。
Faction技術和運營副總裁Jeff Heller表示,到2024年,全球許多企業(yè)將實施數據優(yōu)先架構,以簡化其數據管理策略。
“公司正在經歷范式轉變:他們要么選擇一種云,要么選擇另一種架構來滿足他們的需求。” Heller說,“到2024年,企業(yè)將需要考慮哪種云計算最適合他們,以充分利用他們的數據?;诙唐谀繕硕情L期增長的決策將導致數據鎖定。為了及時做出決策,數據需要準確和可訪問。對于組織來說,管理數據正變得越來越復雜。對高效數據管理策略的需求是至關重要的。企業(yè)將轉向提供從所有云的首選位置訪問單個數據集的解決方案,以確保數據準確性和提高效率?!?/p>
數據管道公司Matillion的首席產品官Ciaran Dynes表示,人工智能革命正在觸及生活的方方面面,包括大數據管理。
“在過去的十年里,數據工程師的角色已經從根本上擴展了?!? Dynes說,“未來12個月將是科技公司讓數據工程師的工作變得更簡單的一年。新工具將進入市場,集成到現有的平臺中,從而能夠將生成式人工智能添加到現有的數據管道中,并能夠在內部部署這些模型,這樣用戶就可以像使用ChatGPT一樣與這些模型進行實時交互。不管市場上的工具是什么,明年對數據工程師的重新培訓也將是巨大的需求,以掌握提示工程,如何微調這些模型,如何大規(guī)模提高他們的生產力。明年,數據工程師的生活將變得更加有趣。”
你有多看重數據工程師?據Snowflake公司產品管理總監(jiān)Jeff Hollan說,到2024年,它們的價值將會更高。
Hollan說:“有很多人認為,人工智能革命將取代數據工程師的角色。事實并非如此,事實上,他們的數據專業(yè)知識將比以往任何時候都更加重要,只是以一種新的、不同的方式。為了跟上不斷變化的形勢,數據工程師需要了解生成式人工智能如何增加價值。由數據工程師構建和管理的數據管道可能是連接大型語言模型的第一個地方,以便組織釋放價值。數據工程師將是那些了解如何使用模型并將其插入數據管道以自動提取價值的人。他們還需要監(jiān)督和理解人工智能的工作。”
當數據由云中的第三方管理時,您可能會覺得數據失去了控制。Ngrok的首席技術官 Peter Shafton預測,2024年將是你開始重新掌控自己數據的一年。
Shafton說:“2024年的數據管理將顯著轉向更易于訪問和控制?!薄半m然過去十年見證了基于云計算的數據解決方案的熱潮,但鐘擺又回到了更多的自我管理。這種轉變背后的原因有兩個:隱私和成本效益。數據泄露的持續(xù)威脅以及對更嚴格的訪問控制的需求使企業(yè)對僅依賴外部云平臺持謹慎態(tài)度。此外,云數據存儲和處理成本的不可預測性促使組織尋求更具可預測性和成本效益的解決方案??稍L問且用戶友好的數據管理工具的激增也促進了這一趨勢,這些工具通常源于Uber、Netflix和Airbnb等科技巨頭開創(chuàng)的開源解決方案。
“數據智能”這個術語已經發(fā)展了幾年,指的是組織對其數據使用的各種數據管理工具。Nasuni的首席創(chuàng)新官Jim Liddle表示,未來12個月將是這個概念成敗的關鍵。
Liddle說:“數量驚人的公司存儲大量數據,僅僅是因為他們不知道數據中有什么,也不知道他們是否需要這些數據?!薄皵祿菧蚀_的和最新的嗎?是否正確分類和“可搜索”?它是否兼容?它是否包含個人身份信息(PII)、受保護的健康信息(PHI)或其他敏感信息?它是按需提供還是存檔?在未來的一年里,所有公司都將被迫接受人工智能的數據質量、治理、訪問和存儲要求,然后才能推進數字化轉型或改進計劃,以獲得所需的競爭優(yōu)勢?!?/p>
Coalesce的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Armon Petrossian表示,如果不能保持數據的質量和完整性,那么你就可以和2024年的GenAI計劃說再見了。
他說:“到2024年,隨著數據從有價值的資產演變?yōu)榕畈l(fā)展的企業(yè)的命脈,技術領域將見證一場變革?!薄昂鲆晹祿|量、完整性和血統(tǒng)的組織將面臨挑戰(zhàn),不僅要做出明智的決策,還要實現生成式人工智能、法學碩士和機器學習應用程序和用例的全部潛力。隨著今年的發(fā)展,我預測,那些忽視建立強大的數據基礎和戰(zhàn)略的組織將發(fā)現,在快速發(fā)展的科技行業(yè)中保持生存越來越具有挑戰(zhàn)性。那些不能適應和優(yōu)先考慮數據基礎的公司將難以超越競爭對手,甚至可能面臨在這個競爭激烈的環(huán)境中生存的風險?!?/p>
數據沿襲構成了一個持續(xù)的挑戰(zhàn)。altair云計算總工程師Yeshwant Mummaneni預測,2024年,區(qū)塊鏈將伸出援手。
Mummaneni說:“由于人工智能/機器學習模型在關鍵決策中發(fā)揮著關鍵作用,無論是由人類監(jiān)督還是以完全自主的方式,模型的來源/血統(tǒng)變得至關重要?!薄盀閰^(qū)塊鏈提供記錄、數字身份、簽名和利用密碼學驗證的不變性的基礎技術,將成為企業(yè)人工智能提供防篡改模型來源的關鍵方面。”
另一個大數據趨勢將像2024年寒冷冬夜的冰晶一樣增長:合成數據。這是SAS公司高級分析產品經理斯Potamitis說的。
Potamitis表示:“隨著組織面臨更嚴格的監(jiān)管,以及跨境共享敏感數據變得更具挑戰(zhàn)性,合成數據將獲得很大的吸引力?!薄昂铣蓴祿梢愿呔鹊夭东@原始數據源的統(tǒng)計屬性,從而克服監(jiān)管障礙,為組織開啟創(chuàng)新之門?!?/p>
ALTR首席執(zhí)行官Beecham表示,雖然你的大數據存儲庫感覺不錯,但2024年將是數據治理“向左移動”的一年。
Beecham說:“組織將在數據傳輸的早期實施數據治理和安全措施,在云數據倉庫的左側,這不僅可以保護敏感信息,還可以提高所收集數據的整體質量。”“隨著有關數據隱私和安全的法規(guī)越來越多,早期優(yōu)先考慮數據治理和安全的公司將更好地遵守這些法規(guī)。到2024年,預計將有大量公司優(yōu)先考慮數據治理和安全的轉移,使他們能夠在云數據倉庫和湖屋上啟動強大的數據訪問治理和數據安全功能,并在數據離開源系統(tǒng)時將其擴展到數據。”
在2023年,數據網格在其他技術趨勢中退居次要地位(主要風頭在于GenAI),但在2024年,數據網格的好處將變得非常明顯,不容忽視,Denodo的首席執(zhí)行官Angel Vi?a說。
Vi?a表示:“2024年將是數據網格崛起的關鍵一年,它包含了數據固有的分布式特性?!薄霸跀祿W格中,IT的角色轉變?yōu)闉閿祿蛱峁┗A以完成其工作,即在整個企業(yè)中創(chuàng)建和分發(fā)數據產品。轉折點將是認識到數據產品應與任何其他產品同等重要。在這個以數據為中心的時代,僅僅包裝數據是不夠的,企業(yè)需要提升終端用戶的整體體驗。”