GenAI 時代,數(shù)據(jù)唾手可得,但真正的挑戰(zhàn)已經(jīng)轉(zhuǎn)變... 原創(chuàng)
編者按: 在人工智能發(fā)展的新階段,我們該如何看待數(shù)據(jù)的角色與價值?當(dāng)生成式 AI 讓數(shù)據(jù)唾手可得,專業(yè)領(lǐng)域的“數(shù)據(jù)護(hù)城河”究竟該如何構(gòu)建?
我們今天為大家?guī)淼奈恼?,作者的觀點(diǎn)是:在生成式 AI 時代,數(shù)據(jù)從未失去其“黃金屬性”,只是淘金(價值挖掘)的方式變了。
文章以大數(shù)據(jù)時代與 AI 時代的對比為切入點(diǎn),指出傳統(tǒng)的數(shù)據(jù)收集模式已被顛覆——大語言模型(LLM)不僅降低了內(nèi)容生成成本,還通過高頻交互創(chuàng)造了海量高價值對話數(shù)據(jù)。文章指出現(xiàn)在的核心挑戰(zhàn)不再是數(shù)據(jù)獲取本身,而是如何處理由用戶高頻交互產(chǎn)生的海量高價值對話數(shù)據(jù)。
作者 | Vikram Sreekanti and Joseph E. Gonzalez
編譯 | 岳揚(yáng)
回到 2010 年代,大數(shù)據(jù)曾風(fēng)靡一時。正如那句名言(部分引用——此處不展示全文)所說:"everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.(人人掛在嘴邊,卻無人真懂其道;都以為別人在做這件事,于是紛紛聲稱自己也在做這件事。)"我們確信,如今從事 AI 工作的各位對這種現(xiàn)象完全陌生。
在那個時代,一切都是為了收集數(shù)據(jù),然后進(jìn)行分析并最終用于機(jī)器學(xué)習(xí)。大規(guī)模收集數(shù)據(jù)并利用這些數(shù)據(jù)打造更好產(chǎn)品體驗(yàn)的能力,正是谷歌和 Facebook 增長的核心動力。
來源:GPT-4o。這算不算吉卜力風(fēng)格???
生成式 AI 熱潮的迷人之處在于,它讓數(shù)據(jù)收集已不再像 10-15 年前那樣具有商品屬性。 如今的 LLM 只需幾分錢就能生成海量看似合理的內(nèi)容,而 AI 應(yīng)用天生就具備創(chuàng)建和處理超出人類認(rèn)知極限的信息能力。
現(xiàn)在,你只需不到一美分的成本,就能獲得高度個性化的、非常詳細(xì)的答案,這在過去是根本無法實(shí)現(xiàn)的。如果你像我們一樣對人工智能情有獨(dú)鐘,那么可能已經(jīng)對傳統(tǒng)搜索方式(不得不翻閱文檔或點(diǎn)擊谷歌搜索結(jié)果)的局限性感到極度沮喪。人工智能這種定制化的優(yōu)勢顯而易見:我們幾乎瞬間就能提高工作效率。但更耐人尋味的是其“附加作用” —— 它所產(chǎn)生的數(shù)據(jù)不僅數(shù)量豐富,而且質(zhì)量高、價值大,就像一個裝滿珍貴寶藏的寶庫一樣。當(dāng)今的關(guān)鍵問題不再是數(shù)據(jù)是否可得,而在于如何處理那些必將收集到的數(shù)據(jù)。
我們在 RunLLM 的經(jīng)歷完美印證了這一點(diǎn)。我們一次又一次地發(fā)現(xiàn):一旦用戶意識到可以從我們這里獲得高質(zhì)量、可靠的答案,每周提問量就會從幾十個激增至數(shù)千個。這種規(guī)模的數(shù)據(jù)量沒有任何團(tuán)隊(duì)有時間逐條閱讀,但由于 LLM 的特性,其中蘊(yùn)藏著大量有價值的信息。我們分析了這些對話,以期發(fā)現(xiàn)文檔中的問題和不足,識別產(chǎn)品缺陷,并收集客戶在其他反饋渠道沒有表達(dá)出來的功能需求。在很多方面,RunLLM 都能清晰地掌握著客戶的實(shí)際使用場景和痛點(diǎn) —— 但若缺乏恰當(dāng)?shù)姆治龇椒?,這些洞見就會湮沒無聞。
簡而言之,大語言模型(LLMs)推動了用戶行為的變化(讓用戶更愿意提問或交互),這種高頻使用生成了海量對話數(shù)據(jù),而這些數(shù)據(jù)中天然包含了用戶的真實(shí)需求和未被滿足的痛點(diǎn)。傳統(tǒng)場景下,人工無法處理如此龐大的數(shù)據(jù),但 LLMs 的介入能從中挖掘出用戶行為模式或市場需求的變化,且 LLMs 又擁有前所未有的高精度分析能力。不過,若是不清楚自己的分析目標(biāo),這些數(shù)據(jù)就難以發(fā)揮作用。
遺憾的是,我們并沒有現(xiàn)成的完美原則能指引各位讀者精確鎖定數(shù)據(jù)中的關(guān)鍵信息。簡而言之,這需要大量實(shí)驗(yàn)經(jīng)驗(yàn)、領(lǐng)域?qū)I(yè)知識和客戶反饋的積累。過去兩年中,我們總結(jié)出的最有效方法之一,就是傾聽客戶這樣的反饋:"我瀏覽對話歷史時驚訝地發(fā)現(xiàn)..." 或者 "這段對話很有趣,因?yàn)槲也恢牢臋n里寫著..."。在多次聽到類似的話之后,我們意識到這些發(fā)現(xiàn)(以及更多規(guī)劃中的自動化功能)可以通過自動化工具實(shí)現(xiàn)規(guī)?;幚怼?/p>
不過,我們可以分享我們在探索如何更好地利用 RunLLM 所收集數(shù)據(jù)的過程中所獲得的經(jīng)驗(yàn)。雖然我們?nèi)蕴幱谄鸩诫A段,但已經(jīng)歷了(許多)錯誤,并對行業(yè)趨勢形成了一些假設(shè)判斷。
- 洞見很難獲?。↖nsights are hard)。生成優(yōu)質(zhì)洞見更是難上加難 —— 如果讓 LLM 自行發(fā)揮,很容易產(chǎn)生令人困惑、毫無幫助或高度抽象的“洞見”,這些洞見實(shí)際上對任何人都沒有價值。我們?yōu)榇烁冻隽藨K痛教訓(xùn):令人尷尬的是,我們最初為 RunLLM 嘗試的主題建模(譯者注:topic modeling,自動分析和歸類 RunLLM 平臺上的用戶問題或?qū)υ?,將它們分組到不同的主題類別中。)效果不佳 —— 客戶反饋我們最初生成的問題類別過于模糊,根本無法實(shí)際應(yīng)用。
- 這些數(shù)據(jù)集是金礦(These datasets are gold)。雖然目前我們對如何利用這些數(shù)據(jù)還沒有最清晰的思路,但我們堅信,隨著時間的推移,這些數(shù)據(jù)集將成為 AI 公司所能建立的最具價值的護(hù)城河之一。當(dāng)然,OpenAI 和 Anthropic 將擁有最廣的數(shù)據(jù)覆蓋面 —— 它們正在收集涵蓋體育、歷史、醫(yī)學(xué)到科學(xué)等通用對話主題的海量數(shù)據(jù)。但這些數(shù)據(jù)集明顯缺乏特定領(lǐng)域的專業(yè)知識:如今大多數(shù)(優(yōu)秀)AI 應(yīng)用成功的原因,恰恰在于它們能提供通用 LLM 無法生成的內(nèi)容。這一點(diǎn)帶來兩個后續(xù)影響,即以下兩段:
- 第一,通用 LLM 無法在高度專業(yè)化的任務(wù)中取得更好的成績。能幫助它們改進(jìn)這類任務(wù)的數(shù)據(jù),根本不會流入大模型提供商手中。我們說的“高度專業(yè)化的任務(wù)”,指的并不是編程(LLM 在這方面顯然已非常擅長)—— 而是需要通用專業(yè)知識和領(lǐng)域經(jīng)驗(yàn)的任務(wù),例如為復(fù)雜產(chǎn)品撰寫銷售郵件,或提供高度復(fù)雜的技術(shù)支持。
- 第二,AI 應(yīng)用將逐步走向?qū)I(yè)化。通用模型提供商所缺失的那些數(shù)據(jù),正是專業(yè)應(yīng)用能夠獲取并用來提升自身性能的資源,這意味著能為客戶提供更好的結(jié)果、更深入的洞察和創(chuàng)造更多的價值。隨著第一代 AI 應(yīng)用公司站穩(wěn)腳跟,質(zhì)疑者將越來越難以聲稱“通用 LLM 也能完成同樣任務(wù)” —— 事實(shí)也將證明這絕無可能。
- 隱藏的挑戰(zhàn)在于數(shù)據(jù)標(biāo)注(The hidden challenge is labeling)。本文尚未討論的一個核心問題是:如何判斷哪些數(shù)據(jù)足夠優(yōu)質(zhì),可以作為構(gòu)建 AI 應(yīng)用或訓(xùn)練模型的可靠基礎(chǔ)。像 Scale AI 這樣的公司通過提供高質(zhì)量人工標(biāo)注服務(wù)實(shí)現(xiàn)了令人難以置信的快速發(fā)展。雖然這種模式在通用數(shù)據(jù)領(lǐng)域有效,但隨著 AI 應(yīng)用日趨專業(yè)化,這種模式將越來越難做好。與此同時,隨著可用數(shù)據(jù)量激增,我們需要找到一種更具可擴(kuò)展性的數(shù)據(jù)標(biāo)注方式。這遠(yuǎn)不是一個已經(jīng)解決的問題,但它將成為真正利用這些數(shù)據(jù)發(fā)揮作用時絕對關(guān)鍵的一環(huán)。
盡管數(shù)據(jù)在 2010 年代被視為關(guān)鍵資產(chǎn),但真正能通過用戶增長構(gòu)建數(shù)據(jù)護(hù)城河的企業(yè)極少 —— 谷歌是一個標(biāo)桿,而其他效仿者大多失敗。對于 AI 應(yīng)用而言,數(shù)據(jù)獲取已不再是障礙 —— AI 應(yīng)用的本質(zhì)決定了它們會持續(xù)生成有價值的、可操作的數(shù)據(jù)。
與任何復(fù)雜問題一樣,關(guān)于“該如何利用你的數(shù)據(jù)”并沒有唯一的正確答案。這取決于你構(gòu)建的應(yīng)用類型、客戶對進(jìn)行這類數(shù)據(jù)分析的接受度等因素。無論在這兩個問題上的答案如何,你必須關(guān)注兩點(diǎn): (1)如何隨著時間的推移構(gòu)建數(shù)據(jù)護(hù)城河,(2)如何開始嘗試?yán)眠@些數(shù)據(jù)。 任何一家公司如果能解決這些問題,都將在未來幾年收獲豐厚回報。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the authors
Vikram Sreekanti
Co-founder & CEO of RunLLM
Joseph E. Gonzalez
Professor at UC Berkeley and Co-Founder at Run LLM
END
本期互動內(nèi)容 ??
?假設(shè) AI 巨頭明天推出你們領(lǐng)域的專業(yè)模型 —— 你們積累的哪類數(shù)據(jù)最可能成為對抗巨頭的護(hù)城河?
本文經(jīng)原作者授權(quán),由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文,請聯(lián)系獲取授權(quán)。
原文鏈接:
??https://frontierai.substack.com/p/ai-is-still-all-about-data??
