2025 年 AI 與數(shù)據(jù)工程領(lǐng)域十大趨勢(shì)前瞻
業(yè)內(nèi)專(zhuān)家們?cè)A(yù)言,2024 年將成為生成式 AI 的里程碑之年。實(shí)際應(yīng)用案例不斷涌現(xiàn),技術(shù)進(jìn)步使得進(jìn)入該領(lǐng)域的門(mén)檻不斷降低,而通用人工智能似乎也近在咫尺。
那么,這些預(yù)測(cè)都實(shí)現(xiàn)了嗎?
部分實(shí)現(xiàn)了。站在 2024 年的尾聲,其中一些預(yù)測(cè)已經(jīng)如火如荼地成為現(xiàn)實(shí)。而其他的,尤其是通用人工智能,還需要更多時(shí)間來(lái)孵化。
以下是著名未來(lái)學(xué)家兼投資者 Tomasz Tunguz 對(duì) 2024 年底數(shù)據(jù)工程和 AI 領(lǐng)域的看法,以及我個(gè)人的幾點(diǎn)預(yù)測(cè)。
2025 年的數(shù)據(jù)工程趨勢(shì)正迎面而來(lái)。
1.我們正處于一個(gè)缺乏邏輯推理的世界(Tomasz)
在人工智能敵托邦(AI dystopia)的第三個(gè)年頭,我們觀察到企業(yè)開(kāi)始在預(yù)期的一些領(lǐng)域創(chuàng)造價(jià)值 —— 然而,并非全方位的突破。Tomasz 認(rèn)為,當(dāng)前 AI 可以分為三個(gè)主要類(lèi)別。
- 預(yù)測(cè):能夠補(bǔ)全句子、修正代碼錯(cuò)誤等的 AI “copilots”。
- 搜索:利用大語(yǔ)料庫(kù)回答問(wèn)題的工具。
- 推理:能夠處理復(fù)雜任務(wù)的多步驟操作流程。
盡管 AI “copilots” 和搜索功能取得了一定的成就(尤其是前者),但推理模型的發(fā)展似乎還跟不上步伐。Tomasz 指出,這其中有一個(gè)顯而易見(jiàn)的原因。
那就是模型的準(zhǔn)確性。
Tomasz 解釋說(shuō),當(dāng)前的模型很難有效地將任務(wù)分解成不同的步驟,除非它們已經(jīng)多次遇到過(guò)相同的模式。而對(duì)于這些模型可能承擔(dān)的大部分工作來(lái)說(shuō),這種情況并不常見(jiàn)。
“目前,如果一個(gè)大模型被要求制作一份財(cái)務(wù)計(jì)劃與分析圖表,它能夠完成。但如果有任何實(shí)質(zhì)性的變化 —— 比如,我們從按軟件計(jì)費(fèi)轉(zhuǎn)變?yōu)榘词褂昧坑?jì)費(fèi),模型就會(huì)不知所措?!?/span>
因此,目前的情況是,AI copilots 和部分準(zhǔn)確的搜索結(jié)果占據(jù)了上風(fēng)。
2.流程 > 工具(Barr)
新工具的價(jià)值,取決于支撐它的流程是否得力。
隨著“現(xiàn)代數(shù)據(jù)技術(shù)棧”的逐年演變,數(shù)據(jù)團(tuán)隊(duì)有時(shí)會(huì)發(fā)現(xiàn)自己永遠(yuǎn)處于一種疲于奔命的狀態(tài)。他們過(guò)分關(guān)注平臺(tái)能做什么,卻忽略了如何高效使用這些功能這一更為關(guān)鍵的問(wèn)題。
然而,隨著企業(yè)界逐漸邁向 production-ready AI(譯者注:“production-ready AI” 是指 AI 系統(tǒng)已經(jīng)準(zhǔn)備好在實(shí)際業(yè)務(wù)環(huán)境中投入使用,能夠?yàn)槠髽I(yè)或用戶(hù)提供價(jià)值),如何將這些新工具投入使用變得尤為迫切。
以數(shù)據(jù)質(zhì)量為例,2024 年 AI 所需數(shù)據(jù)的地位日益凸顯,數(shù)據(jù)質(zhì)量也隨之成為焦點(diǎn)。面對(duì)即將到來(lái)的 production-ready AI,企業(yè)數(shù)據(jù)領(lǐng)導(dǎo)者無(wú)暇在數(shù)據(jù)質(zhì)量菜單中挑挑揀揀——這里試試 dbt 測(cè)試,那里使用點(diǎn)解決方案。他們現(xiàn)在就需要交付價(jià)值,迫切需要能夠立即上線(xiàn)并有效部署的可信賴(lài)解決方案。
面對(duì)臨近的 production-ready AI,企業(yè)數(shù)據(jù)領(lǐng)導(dǎo)者沒(méi)有時(shí)間在數(shù)據(jù)質(zhì)量菜單中挑三揀四。他們已經(jīng)肩負(fù)著交付業(yè)務(wù)價(jià)值的重任,急需能夠立即上線(xiàn)并有效部署的可信賴(lài)解決方案。
現(xiàn)實(shí)情況是,即使你擁有市場(chǎng)上最尖端的數(shù)據(jù)質(zhì)量平臺(tái)——最先進(jìn)的 automations 技術(shù),最優(yōu)秀的 copilots 系統(tǒng),最完美的集成(integrations),但如果不能迅速讓企業(yè)運(yùn)轉(zhuǎn)起來(lái),那么你所擁有的不過(guò)是預(yù)算表上的一個(gè)細(xì)列項(xiàng)目,以及桌面上一個(gè)新增的標(biāo)簽頁(yè)而已。
在未來(lái)一年內(nèi),我預(yù)計(jì)數(shù)據(jù)團(tuán)隊(duì)會(huì)更傾向于采用經(jīng)過(guò)驗(yàn)證的端到端解決方案,而不是零散的工具集,以便集中精力應(yīng)對(duì)數(shù)據(jù)質(zhì)量所有權(quán)、事件管理以及長(zhǎng)期領(lǐng)域賦能等更關(guān)鍵的挑戰(zhàn)。
能夠滿(mǎn)足這些核心需求的解決方案,將在 AI 領(lǐng)域脫穎而出,贏得最終的勝利。
3.AI 正在提升投資回報(bào)率 —— 但并非直接增加收入(Tomasz)
與所有數(shù)據(jù)產(chǎn)品一樣,GenAI 的價(jià)值體現(xiàn)在降低成本或創(chuàng)造收入兩個(gè)方面。
在創(chuàng)造收入方面,可能會(huì)涉及到 AI SDRS、數(shù)據(jù)增強(qiáng)設(shè)備或是推薦系統(tǒng)等技術(shù)。Tomasz 指出,這些工具雖然能夠拓寬銷(xiāo)售渠道…… 但這個(gè)渠道的質(zhì)量可能并不理想。因此,如果 AI 未能直接增加收入,那么它應(yīng)當(dāng)致力于降低成本 —— 在這一點(diǎn)上,AI 這項(xiàng)新興技術(shù)已經(jīng)有所建樹(shù)。
“實(shí)際上,沒(méi)有多少公司因此而關(guān)閉業(yè)務(wù)。它主要的作用在于降低成本。例如,Klarna 裁減了三分之二的員工。微軟和 ServiceNow 的工程效率提升了50–75%?!?/span>
Tomasz 認(rèn)為,AI 應(yīng)用如果符合以下三個(gè)條件之一,就有可能實(shí)現(xiàn)成本降低:
- 工作內(nèi)容重復(fù)性高
- 勞動(dòng)力市場(chǎng)面臨挑戰(zhàn)
- 招聘需求迫切
Tomasz 提到的一個(gè)有效利用 AI 創(chuàng)造新收入的例子是 EvenUp —— 這是一家自動(dòng)化處理需求函的法律公司。像 EvenUp 這樣支持模板化但提供高度定制化服務(wù)的公司,可能會(huì)在現(xiàn)有 AI 技術(shù)的幫助下,獲得顯著的效益提升。
4.AI 的普及速度低于預(yù)期 — 但領(lǐng)導(dǎo)者們正在靜待時(shí)機(jī)(Tomasz)
與去年紛紛提出“AI 戰(zhàn)略”的熱潮相比,如今的領(lǐng)導(dǎo)者們似乎對(duì) AI 技術(shù)有了更為審慎的態(tài)度。
“去年曾出現(xiàn)過(guò)一股浪潮,人們?yōu)榱艘欢脼榭於鴩L試推出各種軟件。他們的董事會(huì)都在詢(xún)問(wèn)他們的人工智能戰(zhàn)略。但現(xiàn)在,那些早期的嘗試中有很多人已經(jīng)放棄了。”
有些企業(yè)在初步嘗試中并未發(fā)現(xiàn) AI 的價(jià)值,而有些則因?yàn)榧夹g(shù)本身的迅速發(fā)展而感到力不從心。Tomasz 指出,這是投資 AI 公司面臨的最大挑戰(zhàn)之一。并非 AI 技術(shù)理論上沒(méi)有價(jià)值,而是企業(yè)尚未掌握如何在實(shí)踐中有效利用它。
Tomasz 相信,下一階段的 AI 普及將不同于第一波,因?yàn)轭I(lǐng)導(dǎo)者們將更明確自己的需求,以及如何滿(mǎn)足這些需求。
就像在大幕拉開(kāi)前的最后一次彩排,團(tuán)隊(duì)們已經(jīng)知道他們?cè)趯ふ沂裁矗麄円呀?jīng)解決了與法律和采購(gòu)相關(guān)的許多問(wèn)題 —— 尤其是數(shù)據(jù)丟失和數(shù)據(jù)保護(hù)相關(guān)的問(wèn)題,他們正蓄勢(shì)待發(fā),只等合適的機(jī)會(huì)出現(xiàn)。
未來(lái)的挑戰(zhàn)將是什么?“如何更快地發(fā)掘并實(shí)現(xiàn)價(jià)值?”
5.Small data 是 AI 的未來(lái)(Tomasz)
開(kāi)源(open source)與托管(managed)之爭(zhēng)是一個(gè)老生常談的話(huà)題,但當(dāng)涉及到 AI 時(shí),這個(gè)問(wèn)題變得更加復(fù)雜。
在企業(yè)層面,這不僅僅關(guān)乎控制權(quán)或互操作性,盡管這些因素確實(shí)存在,但更關(guān)鍵的是運(yùn)營(yíng)成本。
Tomasz 認(rèn)為,最大的 B2C 企業(yè)可能會(huì)直接使用現(xiàn)成的模型,而 B2B 企業(yè)則更傾向于開(kāi)發(fā)自己的專(zhuān)有模型或采用開(kāi)源模型。
“在 B2B 領(lǐng)域,你會(huì)看到整體上更小的模型,以及更多的開(kāi)源模型。這是因?yàn)檫\(yùn)行一個(gè)小的開(kāi)源模型成本要低得多?!?/span>
但小模型的優(yōu)勢(shì)不僅僅在于成本,它們也能提升性能。像 Google 的大模型被設(shè)計(jì)用于應(yīng)對(duì)各種場(chǎng)景,用戶(hù)可以問(wèn)大模型幾乎任何問(wèn)題,因此這些模型需要在龐大的數(shù)據(jù)語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,以提供相關(guān)的回答,比如水球、中國(guó)歷史或法式吐司。
然而,模型訓(xùn)練的主題越多,就越容易混淆不同的概念 —— 隨著時(shí)間的推移,輸出的錯(cuò)誤也會(huì)越多。
“你可以使用像 llama 2 這樣擁有 80 億參數(shù)的模型,然后用 10,000 張 support tickets(譯者注:“10,000 support tickets” 指的是 10,000 張支持工單,指企業(yè)在客戶(hù)服務(wù)或技術(shù)支持過(guò)程中記錄的問(wèn)題或請(qǐng)求。每張工單可能包含客戶(hù)遇到的問(wèn)題、解決方案、溝通記錄等信息。) 對(duì)其進(jìn)行微調(diào),它的表現(xiàn)會(huì)顯著提升,”Tomasz 解釋道。
此外,ChatGPT 和其他托管解決方案頻繁面臨法律挑戰(zhàn),原因是它們的創(chuàng)建者可能并未合法獲得用于訓(xùn)練模型的數(shù)據(jù)。
在許多情況下,這種指控并非空穴來(lái)風(fēng)。
除了成本和性能,這一問(wèn)題可能會(huì)對(duì)專(zhuān)有模型的長(zhǎng)期采用產(chǎn)生影響 —— 尤其是在高度監(jiān)管的行業(yè),但其具體影響程度仍不確定。
當(dāng)然,專(zhuān)有模型并未坐以待斃,Sam Altman 肯定也不會(huì)輕言放棄。
專(zhuān)有模型已經(jīng)在通過(guò)大幅降價(jià)來(lái)刺激需求。像 ChatGPT 這樣的模型已經(jīng)將價(jià)格降低了約 50%,并預(yù)計(jì)在未來(lái) 6 個(gè)月內(nèi)再降 50%。這種成本削減可能是 B2C 企業(yè)在 AI 軍備競(jìng)賽中競(jìng)爭(zhēng)的關(guān)鍵助力。
6.分析師和數(shù)據(jù)工程師的界限正在模糊(Barr)
在擴(kuò)展數(shù)據(jù)管道生產(chǎn)時(shí),數(shù)據(jù)團(tuán)隊(duì)通常會(huì)面臨兩大挑戰(zhàn):分析師的技術(shù)經(jīng)驗(yàn)不足,而數(shù)據(jù)工程師的時(shí)間有限。
這似乎是 AI 可以解決的問(wèn)題。
在我們展望數(shù)據(jù)團(tuán)隊(duì)可能如何發(fā)展時(shí),我認(rèn)為有兩個(gè)主要趨勢(shì)可能會(huì)在 2025 年推動(dòng)工程(engineering)和分析(analytical)職責(zé)的整合:
- 需求增長(zhǎng) —— 隨著業(yè)務(wù)領(lǐng)導(dǎo)者對(duì)數(shù)據(jù)和 AI 產(chǎn)品的需求不斷增加,數(shù)據(jù)團(tuán)隊(duì)將不得不用更少的資源完成更多的任務(wù)。為了盡量減少瓶頸,領(lǐng)導(dǎo)者自然會(huì)授權(quán)原本專(zhuān)業(yè)化的團(tuán)隊(duì)為其數(shù)據(jù)管道及其利益相關(guān)者承擔(dān)更多責(zé)任。
- 提高自動(dòng)化水平 —— 新需求總是會(huì)催生新創(chuàng)新。(在這種情況下,這意味著是 AI 驅(qū)動(dòng)的數(shù)據(jù)管道。)隨著技術(shù)變得更加自動(dòng)化,工程師將能夠用更少的資源完成更多工作,而分析師也將能夠獨(dú)立處理更多任務(wù)。
這一邏輯很簡(jiǎn)單 —— 隨著需求的增長(zhǎng),數(shù)據(jù)管道自動(dòng)化自然會(huì)隨之發(fā)展以滿(mǎn)足需求。隨著自動(dòng)化技術(shù)的進(jìn)步,創(chuàng)建和管理這些數(shù)據(jù)管道的門(mén)檻將降低。技能差距將縮小,而創(chuàng)造新價(jià)值的能力將提升。
向自助式(self-serve) AI 驅(qū)動(dòng)的數(shù)據(jù)管道管理邁進(jìn),意味著每個(gè)人工作中最繁瑣的部分將被自動(dòng)化取代 —— 而他們?cè)谶@個(gè)過(guò)程中創(chuàng)造和展示新價(jià)值的能力將得到提升。這聽(tīng)起來(lái)會(huì)是一個(gè)美好的未來(lái)。
7.合成數(shù)據(jù)很重要 —— 但它是有代價(jià)的(Tomasz)
你可能見(jiàn)過(guò) “蛇吞象 ”的畫(huà)面。如果仔細(xì)觀察,會(huì)發(fā)現(xiàn)它與當(dāng)代 AI 的發(fā)展有著驚人的相似之處。
目前互聯(lián)網(wǎng)上大約有 21–25 萬(wàn)億個(gè) token(單詞)。當(dāng)前正在使用的 AI 模型已經(jīng)消耗了所有這些數(shù)據(jù)。為了讓 AI 繼續(xù)進(jìn)步,它需要在一個(gè)更大的數(shù)據(jù)語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練。數(shù)據(jù)越多,輸出的上下文就越豐富,準(zhǔn)確性也就越高。
那么,當(dāng) AI 研究人員用完了訓(xùn)練數(shù)據(jù)時(shí),他們會(huì)做什么呢?
他們會(huì)自己制造數(shù)據(jù)。
隨著訓(xùn)練數(shù)據(jù)變得越來(lái)越稀缺,像 OpenAI 這樣的公司認(rèn)為,合成數(shù)據(jù)將成為未來(lái)訓(xùn)練模型的重要組成部分。在過(guò)去兩年里,整個(gè)行業(yè)已經(jīng)圍繞這一愿景發(fā)展起來(lái) —— 包括像 Tonic 這樣生成合成結(jié)構(gòu)化數(shù)據(jù)的公司,以及 Gretel 這樣為金融和醫(yī)療保健等受監(jiān)管行業(yè)創(chuàng)建合規(guī)數(shù)據(jù)的公司。
但合成數(shù)據(jù)是長(zhǎng)期解決方案嗎?可能不是。
合成數(shù)據(jù)的工作原理是利用模型來(lái)創(chuàng)建人工數(shù)據(jù)集,這些數(shù)據(jù)集模擬了人們可能在自然環(huán)境中找到的數(shù)據(jù),然后用這些新數(shù)據(jù)來(lái)訓(xùn)練模型。在小范圍內(nèi),這確實(shí)很有意義。但正如俗話(huà)所說(shuō),“過(guò)猶不及”……
你可以將其類(lèi)比為“上下文營(yíng)養(yǎng)不良(contextual malnutrition)”。就像食物一樣,如果新鮮的有機(jī)數(shù)據(jù)是模型訓(xùn)練中最有營(yíng)養(yǎng)的,那么從現(xiàn)有數(shù)據(jù)集中提煉出來(lái)的數(shù)據(jù),本質(zhì)上一定比原始數(shù)據(jù)“營(yíng)養(yǎng)”更少。
加一點(diǎn)人工調(diào)味料是可以的 —— 但如果長(zhǎng)期依賴(lài)合成訓(xùn)練數(shù)據(jù),而沒(méi)有引入新的“天然”數(shù)據(jù)[1],模型最終會(huì)失效(或者至少,其表現(xiàn)會(huì)明顯下降)。
這不是“是否”會(huì)發(fā)生的問(wèn)題,而是“何時(shí)”會(huì)發(fā)生的問(wèn)題。
根據(jù) Tomasz 的說(shuō)法,我們離模型崩潰還很遠(yuǎn)。但隨著 AI 研究不斷將模型推向其功能極限,不難想象 AI 最終會(huì)達(dá)到其功能平臺(tái)極限 —— 可能比我們預(yù)期的更早。
8.非結(jié)構(gòu)化數(shù)據(jù)技術(shù)棧將嶄露頭角(Barr)
在生產(chǎn)中利用非結(jié)構(gòu)化數(shù)據(jù)的想法并不新鮮 —— 但在人工智能時(shí)代,非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)扮演了全新的角色。
根據(jù) IDC 的一份報(bào)告,目前只有大約一半的企業(yè)非結(jié)構(gòu)化數(shù)據(jù)得到了分析[2]。
這一切即將改變。
說(shuō)到生成式人工智能,企業(yè)的成功在很大程度上取決于用于訓(xùn)練、微調(diào)和增強(qiáng)的大量非結(jié)構(gòu)化數(shù)據(jù)。隨著越來(lái)越多的企業(yè)希望將人工智能應(yīng)用于企業(yè)使用場(chǎng)景,對(duì)非結(jié)構(gòu)化數(shù)據(jù),以及新興的“非結(jié)構(gòu)化數(shù)據(jù)技術(shù)棧[3]”的熱情將繼續(xù)增長(zhǎng)。
一些團(tuán)隊(duì)甚至正在探索如何使用額外的 LLMs(大語(yǔ)言模型)來(lái)為非結(jié)構(gòu)化數(shù)據(jù)添加結(jié)構(gòu)[4],以擴(kuò)展其在其他訓(xùn)練和分析使用場(chǎng)景中的用途。
識(shí)別企業(yè)中存在的非結(jié)構(gòu)化第一方數(shù)據(jù),以及如何為利益相關(guān)者激活這些數(shù)據(jù) —— 對(duì)于尋求展示數(shù)據(jù)平臺(tái)商業(yè)價(jià)值的數(shù)據(jù)領(lǐng)導(dǎo)者來(lái)說(shuō),是一個(gè)全新的機(jī)遇(并希望在此過(guò)程中為優(yōu)先計(jì)劃爭(zhēng)取到一些額外的預(yù)算)。
如果說(shuō) 2024 年是探索非結(jié)構(gòu)化數(shù)據(jù)潛力的一年,那么 2025 年將完全是實(shí)現(xiàn)其價(jià)值的一年。問(wèn)題是……哪些工具將脫穎而出?
9.Agentic AI 對(duì)話(huà)表現(xiàn)出色 —— 但部署卻成問(wèn)題(Tomasz)
如果你最近在風(fēng)投圈子里轉(zhuǎn)悠,可能會(huì)經(jīng)常聽(tīng)到兩個(gè)流行詞匯:“copilot”,這其實(shí)是指一種用于完成單個(gè)任務(wù)的 AI(比如“修正我那糟糕的代碼”),以及“agents”,這是一種能夠收集信息并據(jù)此執(zhí)行多步驟任務(wù)的工作流程(例如“撰寫(xiě)關(guān)于我那糟糕代碼的博客,并發(fā)布到我的 WordPress 上”)。
2024 年,AI copilots 確實(shí)取得了不小的成就(問(wèn)問(wèn) Github、Snowflake、微軟的 paperclip 團(tuán)隊(duì)就知道了),但 AI agents 的表現(xiàn)又如何呢?
盡管 Agentic AI 給客戶(hù)支持團(tuán)隊(duì)帶來(lái)了不少樂(lè)趣,但看起來(lái)它在短期內(nèi)也就只能做到這個(gè)程度。這些早期的 AI agents 雖然標(biāo)志著我們向前邁出的重要一步,但其工作流程的準(zhǔn)確性仍然不盡人意。
要知道,對(duì)于人工智能來(lái)說(shuō),75%-90% 的準(zhǔn)確率已經(jīng)是最先進(jìn)的水平了,大多數(shù) AI 的水平相當(dāng)于高中生。如果三個(gè)步驟的準(zhǔn)確率在 75–90%,那么最終的準(zhǔn)確率可能只剩下 50% 左右。
我們訓(xùn)練大象畫(huà)畫(huà)的準(zhǔn)確率都比這高。
大多數(shù) AI agents 如果以目前的性能投入生產(chǎn),遠(yuǎn)不能為企業(yè)帶來(lái)收益,很可能還會(huì)帶來(lái)負(fù)面影響。Tomasz 認(rèn)為,我們需要先解決這個(gè)問(wèn)題。
重要的是能夠談?wù)撨@些 AI agents,還沒(méi)有人能夠在項(xiàng)目演示之外取得過(guò)任何成功。硅谷的人們或許喜歡談?wù)?AI agents,但這種討論并不能轉(zhuǎn)化為實(shí)際的性能表現(xiàn)。
10.數(shù)據(jù)管道規(guī)模不斷擴(kuò)大 —— 但質(zhì)量保障并未同步提升(Tomasz)
“在一次與眾多 AI 領(lǐng)域領(lǐng)導(dǎo)者的晚宴上,我詢(xún)問(wèn)了有多少人對(duì)輸出結(jié)果的質(zhì)量感到滿(mǎn)意,結(jié)果無(wú)人響應(yīng)。在確保輸出一致性方面,我們確實(shí)面臨著嚴(yán)峻的質(zhì)量挑戰(zhàn)?!?/span>
Monte Carlo 每年都會(huì)調(diào)查[5]數(shù)據(jù)專(zhuān)家的真實(shí)數(shù)據(jù)質(zhì)量狀況。今年,我們將焦點(diǎn)對(duì)準(zhǔn)了 AI 的影響范圍,得到的信號(hào)非常明確。
數(shù)據(jù)質(zhì)量風(fēng)險(xiǎn)正在演變,但數(shù)據(jù)質(zhì)量管理卻未能跟上步伐。
“我們觀察到一些團(tuán)隊(duì)正在大規(guī)模構(gòu)建向量數(shù)據(jù)庫(kù)或嵌入模型,規(guī)?;瘧?yīng)用 SQLLite,共計(jì) 1 億個(gè)小數(shù)據(jù)庫(kù)。它們開(kāi)始在 CDN 層進(jìn)行架構(gòu)設(shè)計(jì),以運(yùn)行這些小型模型。iPhone 也將搭載機(jī)器學(xué)習(xí)模型。我們預(yù)計(jì)將看到數(shù)據(jù)管道總數(shù)的大幅增長(zhǎng),但每個(gè)管道處理的數(shù)據(jù)量會(huì)更小?!?/span>
微調(diào)模式將導(dǎo)致企業(yè)內(nèi)部數(shù)據(jù)管道數(shù)量急劇增加。然而,數(shù)據(jù)管道規(guī)模越大,保證數(shù)據(jù)質(zhì)量就越發(fā)困難。
數(shù)據(jù)質(zhì)量與數(shù)據(jù)管道的數(shù)量和復(fù)雜度直接相關(guān)。數(shù)據(jù)管道越多(且越復(fù)雜),出現(xiàn)問(wèn)題的幾率就越高,而及時(shí)發(fā)現(xiàn)問(wèn)題的可能性就越小。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!