UC伯克利教授驚人預(yù)測(cè):2030年GPT可執(zhí)行人類180萬年工作,一天學(xué)2500年知識(shí)
現(xiàn)在是GPT-4,時(shí)間是2023年。
7年之后,2030年,那時(shí)的GPT會(huì)是什么樣子?
UC伯克利的一位機(jī)器學(xué)習(xí)教授Jacob Steinhard發(fā)表長(zhǎng)文,對(duì)2030年的GPT(以下簡(jiǎn)稱為GPT 2030)作了預(yù)測(cè)。
為了更好地進(jìn)行預(yù)測(cè),Jacob查詢了各種來源的信息,包括經(jīng)驗(yàn)縮放定律、對(duì)未來計(jì)算和數(shù)據(jù)可用性的預(yù)測(cè)、特定基準(zhǔn)的改進(jìn)速度、當(dāng)前系統(tǒng)的經(jīng)驗(yàn)推理速度,以及未來可能的并行性改進(jìn)。
概括來看,Jacob認(rèn)為,GPT 2030會(huì)在以下幾個(gè)方面超過人類工作者。
1. 編程、黑客任務(wù)、數(shù)學(xué)、蛋白質(zhì)設(shè)計(jì)。
2. 工作和思考的速度:預(yù)計(jì)GPT 2030每分鐘處理的單詞是人類的5倍,而每FLOP都多5倍的話,總共就是125倍。
3. GPT 2030可以進(jìn)行任意復(fù)制,并進(jìn)行并行運(yùn)算。算力足夠的話,它足以完成人類需要執(zhí)行180萬年的工作,結(jié)合2中的結(jié)論,這些工作只需2.4個(gè)月,就能完成。
4. 由于具有相同的模型權(quán)重,GPT的副本之間可以共享知識(shí),實(shí)現(xiàn)快速的并行學(xué)習(xí)。因此,GPT可以在1天內(nèi)學(xué)完人類需要學(xué)2500年的知識(shí)。
5. 除了文本和圖像,GPT還能接受其它模態(tài)的訓(xùn)練,甚至包括各種違反直覺的方式,比如分子結(jié)構(gòu)、網(wǎng)絡(luò)流量、低級(jí)機(jī)器碼、天文圖像和腦部掃描。因此,它可能會(huì)對(duì)我們經(jīng)驗(yàn)有限的領(lǐng)域具有很強(qiáng)的直覺把握,甚至?xí)纬晌覀儧]有的概念。
當(dāng)然,除了飛躍的性能,Jacob表示,GPT的濫用問題也會(huì)更加嚴(yán)重,并行化和高速將使模型嚴(yán)重威脅網(wǎng)絡(luò)安全。
它的快速并行學(xué)習(xí)還會(huì)轉(zhuǎn)向人類行為,而因?yàn)樽约阂呀?jīng)掌握了「千年」的經(jīng)驗(yàn),它想要操控和誤導(dǎo)人類也會(huì)很輕易。
在加速方面,最大的瓶頸是GPT的自主性。
在數(shù)學(xué)研究這種可以自動(dòng)檢查工作的領(lǐng)域,Jacob預(yù)測(cè),GPT 2030將超過大多數(shù)專業(yè)數(shù)學(xué)家。
在機(jī)器學(xué)習(xí)領(lǐng)域,他預(yù)測(cè)GPT將能獨(dú)立完成實(shí)驗(yàn)并生成圖表和論文,但還是需要人類科研者給出具體指導(dǎo)、評(píng)估結(jié)果。
在這兩種情況下,GPT 2030都將是科研過程中不可或缺的一部分。
Jacob表示,他對(duì)GPT 2030特性的預(yù)測(cè)并不是從今天的系統(tǒng)中直觀得出的,它們可能是錯(cuò)誤的,因?yàn)镸L在2030年會(huì)是什么樣子,還存在很大的不確定性。
然而,無論GPT 2030會(huì)是什么樣子,Jacob都相信,它至少是一個(gè)更好版本的GPT-4。
所以,我們現(xiàn)在就該為AI可能造成的影響(比如影響1萬億美元、1000萬人的生命,或者對(duì)人類社會(huì)進(jìn)程造成重大破壞)做好準(zhǔn)備,而不是在7年以后。
特定能力
GPT 2030應(yīng)該會(huì)具有超人的編碼、黑客和數(shù)學(xué)能力。
在閱讀和處理大型語料庫,以獲取模式和見解以及回憶事實(shí)的能力方面,它都會(huì)能力驚人。
因?yàn)锳lphaFold和AlphaZero在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和游戲方面都具有超人的能力,GPT 2030顯然也可以,比如讓它在與AlphaFold/AlphaZero模型相似的數(shù)據(jù)上進(jìn)行多模態(tài)訓(xùn)練。
編程能力
GPT-4在LeetCode問題上的表現(xiàn)優(yōu)于訓(xùn)練截止后的人類基線,并通過了幾家大型科技公司的模擬面試。
他們的進(jìn)步速度也很快,從GPT-3到GPT-4,直接躍升了19%。
在更具挑戰(zhàn)性的CodeForces競(jìng)賽中,GPT-4的表現(xiàn)較差,但AlphaCode與CodeForces競(jìng)爭(zhēng)對(duì)手的中值水平相當(dāng)。
在更難的APPS數(shù)據(jù)集上,Parcel進(jìn)一步超越了AlphaCode(7.8%->25.5%)。
展望未來,預(yù)測(cè)平臺(tái)Metaculus給出的中位數(shù)是2027年,屆時(shí)在APPS上將有80%的AI,將超越除了最優(yōu)秀程序員之外的所有人類。
黑客
Jacob預(yù)測(cè),GPT 2030的黑客能力將隨著編程能力的提高而提高,而且,ML模型可以比人類更有規(guī)模、更認(rèn)真地搜索大型代碼庫中的漏洞。
事實(shí)上,ChatGPT早已被用于幫助生成漏洞。
ChatGPT生成的網(wǎng)絡(luò)釣魚郵件
數(shù)學(xué)
Minerva在競(jìng)賽數(shù)學(xué)基準(zhǔn)(MATH)上的準(zhǔn)確率達(dá)到50%,優(yōu)于大多數(shù)人類競(jìng)爭(zhēng)對(duì)手。
而且,它的進(jìn)步速度很快(一年內(nèi)>30%),而且通過自動(dòng)形式化、減少算法錯(cuò)誤、改進(jìn)思維鏈和更好的數(shù)據(jù)的加持,取得了顯著的成果。
Metaculus預(yù)測(cè),到2025年GPT的數(shù)學(xué)成績(jī)將達(dá)到92%,AI在國際數(shù)學(xué)奧賽中獲得金牌的中位數(shù)為2028年,能夠比肩全世界成績(jī)最拔尖的高中生。
Jacob個(gè)人預(yù)計(jì),GPT 2030在證明定理方面將優(yōu)于大多數(shù)專業(yè)數(shù)學(xué)家。
信息處理
回憶事實(shí)和處理大型語料庫,是語言模型的記憶能力和大型上下文窗口的自然結(jié)果。
根據(jù)經(jīng)驗(yàn),GPT-4在MMLU上的準(zhǔn)確率達(dá)到 86%,這是一套廣泛的標(biāo)準(zhǔn)化考試,包括律師考試、MCAT以及大學(xué)數(shù)學(xué)、物理、生物化學(xué)和哲學(xué);即使考慮到可能存在測(cè)試污染,這也超出了任何人類的知識(shí)廣度。
關(guān)于大型語料庫,有研究人員使用GPT-3構(gòu)建了一個(gè)系統(tǒng),該系統(tǒng)發(fā)現(xiàn)了大型文本數(shù)據(jù)集中的幾種以前未知的模式,以及某篇工作中的縮放率,這表明模型很快就會(huì)成為「超人」。
這兩項(xiàng)工作都利用了LLM的大型上下文窗口,目前該窗口已超過100,000個(gè)token,并且還在不斷增長(zhǎng)。
更一般地說,機(jī)器學(xué)習(xí)模型具有與人類不同的技能特征,因?yàn)槿祟惡蜋C(jī)器學(xué)習(xí)適應(yīng)的是非常不同的數(shù)據(jù)源(前者是通過進(jìn)化,后者是通過海量的互聯(lián)網(wǎng)數(shù)據(jù))。
當(dāng)模型在視頻識(shí)別等任務(wù)上達(dá)到人類水平時(shí),它們?cè)谠S多其他任務(wù)(例如數(shù)學(xué)、編程和黑客攻擊)上可能會(huì)成為超人。
此外,隨著時(shí)間的推移,會(huì)出現(xiàn)更大的模型和更好的數(shù)據(jù),這會(huì)讓模型功能變得更為強(qiáng)大,不太可能低于人類水平。
雖然當(dāng)前的深度學(xué)習(xí)方法可能在某些領(lǐng)域達(dá)不到人類水平,但在數(shù)學(xué)這類人類進(jìn)化并不擅長(zhǎng)的領(lǐng)域,它們很可能會(huì)顯著超越人類。
推理速度
為了研究ML模型的速度,研究人員將測(cè)量ML模型生成文本的速度,以每分鐘想到380個(gè)單詞的人類思維速度為基準(zhǔn)。
使用OpenAI的chat completions API,GPT-3.5每分鐘可以生成1200個(gè)單詞 (wpm),而GPT-4可以生成370wpm,截至2023年4月上旬。
像Pythia-12B這樣的小型開源模型,通過在A100 GPU上使用開箱即用的工具,至少可以生成1350個(gè)單詞wpm, ,通過進(jìn)一步優(yōu)化,可能還會(huì)達(dá)到2倍。
因此,如果我們考慮截至4月份的OpenAI模型,它要么大約是人類速度的3倍,要么等于人類速度。因?yàn)榧铀偻评泶嬖趶?qiáng)大的商業(yè)化壓力,未來模型的推理速度還會(huì)更快。
事實(shí)上,根據(jù)Fabien Roger 的跟蹤數(shù)據(jù),在撰寫本文之前的一周,GPT-4的速度已經(jīng)提高到約540wpm(12個(gè)token/秒);這表明空間仍然很大。
Steinhard的中位數(shù)預(yù)測(cè)是,模型每分鐘生成的單詞數(shù)將是人類的5倍(范圍:[0.5x, 20x]),這大致是進(jìn)一步增加的實(shí)際收益會(huì)遞減的地方。
重要的是,機(jī)器學(xué)習(xí)模型的速度不是固定的。模型的串行推理速度可以提高k^2,但代價(jià)是吞吐量降低k倍(換句話說,模型的$$k^3$$并行副本可以替換為速度快$$k^2$$倍的單個(gè)模型)
這可以通過并行平鋪方案來完成,理論上該方案甚至適用于$$k^2$$這樣的大值,可能至少為100,甚至更多。
因此,通過設(shè)置k=5,可以將5倍人類速度的模型,加速到125倍的人類速度。
當(dāng)然,速度并不一定與質(zhì)量相匹配:GPT 2030將具有與人類
不同的技能特征,在一些我們認(rèn)為容易的任務(wù)上,它會(huì)失敗,而在我們認(rèn)為困難的任務(wù)上,它會(huì)表現(xiàn)出色。
因此,我們不應(yīng)將GPT 2030視為「加速的人類」,而應(yīng)將其視為有潛力發(fā)展出一些違反直覺技能的「超級(jí)加速工人」。
盡管如此,加速仍然很有用。
對(duì)于提速125倍的語言模型,只要在GPT 2030的技能范圍之內(nèi),我們需要一天時(shí)間的學(xué)會(huì)的認(rèn)知?jiǎng)幼?,它可能在幾分鐘?nèi)就會(huì)完成。
運(yùn)用前面提到的黑客攻擊,機(jī)器學(xué)習(xí)系統(tǒng)可以快速生成漏洞或攻擊,而人類卻生成得很緩慢。
吞吐量和并行副本
模型可以根據(jù)可用的計(jì)算和內(nèi)存任意復(fù)制,因此它們可以快速完成任何可以有效并行的工作。
此外,一旦一個(gè)模型被微調(diào)到特別有效,更改就可以立即傳播到其他實(shí)例。模型還可以針對(duì)特定的任務(wù)進(jìn)行蒸餾,從而運(yùn)行得更快、更便宜。
一旦模型經(jīng)過訓(xùn)練,可能會(huì)有足夠的資源來運(yùn)行模型的多個(gè)副本。
因?yàn)橛?xùn)練模型就需要運(yùn)行它的許多并行副本,并且組織在部署時(shí),仍然擁有這些資源。因此,我們可以通過估計(jì)訓(xùn)練成本,來降低副本數(shù)量。
比如,訓(xùn)練GPT-3的成本,足以運(yùn)行9x10^11次前向傳播。用人類等價(jià)的術(shù)語來說,人類以每分鐘380個(gè)單詞的速度思考,一個(gè)單詞平均占1.33個(gè)token,因此9x10^11次前向傳播相當(dāng)于以人類速度工作約3400年。
因此,該組織可以以人類工作速度運(yùn)行3400個(gè)模型的并行副本一整年,或者以5倍人類速度運(yùn)行相同數(shù)量的副本2.4個(gè)月。
接下來,我們可以試著為未來的模型預(yù)測(cè)同樣的「訓(xùn)練過?!梗ㄓ?xùn)練與推理成本的比率)。這個(gè)數(shù)會(huì)更大,主要原因就是這個(gè)數(shù)值大致與數(shù)據(jù)集大小成正比,并且數(shù)據(jù)集會(huì)隨著時(shí)間的推移而增加。
隨著自然產(chǎn)生的語言數(shù)據(jù)被耗盡,這一趨勢(shì)將會(huì)放緩,但新的模式以及合成或自我生成的數(shù)據(jù)仍將繼續(xù)推動(dòng)這一趨勢(shì)。
上面的預(yù)測(cè)有些保守,因?yàn)槿绻M織購買額外的算力,模型可能會(huì)在比訓(xùn)練時(shí)使用的資源更多的資源上運(yùn)行。
一個(gè)大致的估計(jì)顯示,GPT-4的訓(xùn)練占用了世界上大約0.01%的計(jì)算資源,在未來它的訓(xùn)練和運(yùn)行將占用全世界更大比例的算力,因此在訓(xùn)練后進(jìn)一步擴(kuò)展的空間較小。
盡管如此,如果組織有充分的理由這樣做,他們?nèi)匀豢梢詫⑦\(yùn)行的副本數(shù)量增加到另一個(gè)數(shù)量級(jí)。
知識(shí)共享
模型的不同副本可以共享參數(shù)更新。
例如,ChatGPT可以部署到數(shù)百萬用戶,從每次交互中學(xué)習(xí)一些東西,然后將梯度更新傳播到中央服務(wù)器,隨后應(yīng)用于模型的所有副本。
通過這種方式,ChatGPT一小時(shí)內(nèi)觀察到的人性就比人類一生(100萬小時(shí) = 114年)還要多。并行學(xué)習(xí)可能是模型最重要的優(yōu)勢(shì)之一,這意味著它們可以快速學(xué)習(xí)任何缺失的技能。
并行學(xué)習(xí)的速度取決于模型同時(shí)運(yùn)行副本的數(shù)量、獲取數(shù)據(jù)的速度以及數(shù)據(jù)是否可以有效地并行利用。
即使是極端的并行化,也不會(huì)對(duì)學(xué)習(xí)效率造成太大影響,因?yàn)樵趯?shí)踐中,數(shù)以百萬計(jì)的批大小是很常見的,并且梯度噪聲尺度預(yù)測(cè)在某個(gè)「關(guān)鍵批大小」以下,學(xué)習(xí)性能的降低將是最小的。
因此,我們重點(diǎn)關(guān)注并行副本和數(shù)據(jù)采集。
以下兩個(gè)估計(jì)表明,可以讓至少~100萬個(gè)模型副本以人類速度并行學(xué)習(xí)。
這相當(dāng)于人類每天學(xué)習(xí)2500年,因?yàn)?00萬天=2500年。
我們首先使用了上文第3節(jié)的數(shù)字,得出的結(jié)論是訓(xùn)練模型的成本足以模擬模型180萬年的工作(根據(jù)人類速度進(jìn)行調(diào)整)。
假設(shè)訓(xùn)練運(yùn)行本身持續(xù)了不到1.2年,這意味著訓(xùn)練模型的組織擁有足夠的GPU,以人類速度運(yùn)行150萬個(gè)副本。
第二個(gè)估算考慮了部署該模型的組織的市場(chǎng)份額。
例如,如果一次有100萬個(gè)用戶查詢模型,那么組織必然有資源來提供100萬個(gè)模型副本。
截至2023年5月,ChatGPT擁有1億用戶,截至2023年1月,每天有1300萬活躍用戶。
假設(shè)一般用戶請(qǐng)求的是幾分鐘的模型生成文本,因此1月份的數(shù)字可能意味著每天大約5萬人的文本。
然而,未來的ChatGPT式模型很可能會(huì)是這個(gè)數(shù)字的20倍,達(dá)到每天2.5億活躍用戶或更多,因此每天100萬人的數(shù)據(jù),是相當(dāng)合理的。
作為參考,F(xiàn)acebook每天有20億日活用戶。
工具、模態(tài)和執(zhí)行器
過去看,GPT風(fēng)格的模型主要是在文本和代碼上進(jìn)行訓(xùn)練,與外部世界的交互方面,除了通過聊天對(duì)話之外能力有限。
然而,現(xiàn)在情況正在迅速改變,因?yàn)槟P驼诮邮芷渌B(tài)(如圖像)的訓(xùn)練,并且開始與物理執(zhí)行器進(jìn)行接口交互。
此外,模型不會(huì)局限于文本、自然圖像、視頻和語音等人類中心的模態(tài),它們很可能還將接受對(duì)于我們來說陌生的模態(tài)的訓(xùn)練,比如網(wǎng)絡(luò)流量、天文圖像或其他大規(guī)模數(shù)據(jù)來源。
工具
最近發(fā)布的模型使用了很外部工具,比如ChatGPT插件。
模型已經(jīng)可以編寫并執(zhí)行代碼,說服人類采取行動(dòng),進(jìn)行API調(diào)用、交易,并潛在地執(zhí)行網(wǎng)絡(luò)攻擊。
這種能力在未來還會(huì)進(jìn)一步發(fā)展。
新模態(tài)
現(xiàn)在已經(jīng)有了大規(guī)模的開源視覺-語言模型,比如OpenFlamingo,而在商業(yè)領(lǐng)域,GPT-4和Flamingo都是在視覺和文本數(shù)據(jù)上進(jìn)行訓(xùn)練的。研究人員還在嘗試更多非傳統(tǒng)的模態(tài)配對(duì),例如蛋白質(zhì)和語言。
由于兩個(gè)原因,我們應(yīng)該預(yù)計(jì)大規(guī)模預(yù)訓(xùn)練模型的模態(tài)將繼續(xù)擴(kuò)展。
首先,從經(jīng)濟(jì)上講,將語言與不太熟悉的模態(tài)(如蛋白質(zhì))配對(duì)是有用的,這樣用戶可以從解釋中受益,并高效地進(jìn)行修改。這意味著在蛋白質(zhì)、生物醫(yī)學(xué)數(shù)據(jù)、CAD模型以及與經(jīng)濟(jì)部門相關(guān)的其他模態(tài)上進(jìn)行多模態(tài)訓(xùn)練。
其次,隨著語言數(shù)據(jù)的耗盡,模型開發(fā)者將尋找新型的數(shù)據(jù),來繼續(xù)從規(guī)模效應(yīng)中受益。
除了傳統(tǒng)的文本和視頻,一些最大的現(xiàn)有數(shù)據(jù)來源是天文數(shù)據(jù)(每天將很快達(dá)到exabytes級(jí))和基因組數(shù)據(jù)(每天約0.1exabytes)。這些海量數(shù)據(jù)源有可能被用于訓(xùn)練GPT 2030。
使用非傳統(tǒng)模態(tài),意味著GPT 2030可能會(huì)具有非直觀的能力。它可能會(huì)比我們更好地理解星星和基因,即使它并不具備體力。
這可能會(huì)帶來一些意外發(fā)現(xiàn),例如設(shè)計(jì)新穎的蛋白質(zhì)。
執(zhí)行器
現(xiàn)在,大模型還開始使用物理執(zhí)行器:ChatGPT已經(jīng)用于機(jī)器人控制了,OpenAI正在投資一家人形機(jī)器人公司。
然而,與數(shù)字領(lǐng)域相比,物理領(lǐng)域的數(shù)據(jù)收集成本要高得多,而且人類在進(jìn)化上更適應(yīng)物理領(lǐng)域(因此,機(jī)器學(xué)習(xí)模型要與我們競(jìng)爭(zhēng)的門檻更高)。
Steinhard預(yù)測(cè),在2030年,AI模型能自主組織一輛法拉利的概率是40%。
GPT-2030的影響
當(dāng)像GPT-2030這樣的AI出現(xiàn),會(huì)對(duì)社會(huì)意味著什么?
可以推測(cè),它會(huì)顯著加速某些研究領(lǐng)域的發(fā)展,也有很大可能被濫用。
優(yōu)勢(shì)
GPT-2030,代表著一支龐大、高適應(yīng)性和高吞吐量的員工隊(duì)伍。
它可以在并行副本中完成180萬年的工作,其中每個(gè)副本的運(yùn)行速度是人類的5倍。
這意味著我們可以(在并行性約束的前提下)在2.4個(gè)月內(nèi),模擬180萬個(gè)智能體工作一年的情況。
我們可以支付5倍的FLOP費(fèi)用,來獲得額外的25倍加速(達(dá)到人類速度的125倍),因此我們還可以在3天內(nèi),模擬14000個(gè)智能體工作一年的情況。
限制
限制這個(gè)數(shù)字化勞動(dòng)力的,主要有三個(gè)障礙:技能要求、實(shí)驗(yàn)成本和自主性。
首先,GPT-2030的技能要求與人類不同,使其在某些任務(wù)上表現(xiàn)較差)。
其次,模擬的工作者仍然需要與世界接觸以收集數(shù)據(jù),這會(huì)產(chǎn)生時(shí)間和計(jì)算成本。
最后,現(xiàn)在的模型在進(jìn)行一連串思考后,只能生成幾千個(gè)token,之后就會(huì)「卡住」,進(jìn)入一個(gè)不再產(chǎn)生高質(zhì)量輸出的狀態(tài)。
或許GPT-2030在被重置或通過外部反饋引導(dǎo)之前,能夠連續(xù)運(yùn)行數(shù)個(gè)相當(dāng)于人類工作日的時(shí)間。
如果模型以5倍的加速運(yùn)行,這意味著它們每隔幾個(gè)小時(shí)就需要人類監(jiān)督。
因此,GPT-2030最有可能影響的任務(wù)是:
1. AI相對(duì)于人類的強(qiáng)項(xiàng)
2. 只需要能夠方便快速地收集外部經(jīng)驗(yàn)數(shù)據(jù)的任務(wù)(而不是昂貴的物理實(shí)驗(yàn))
3. 可以事先分解為可靠執(zhí)行的子任務(wù),或具有明確且可自動(dòng)化的反饋度量,以幫助引導(dǎo)模型的任務(wù)
加速!
同時(shí)滿足上述三個(gè)標(biāo)準(zhǔn)的一個(gè)任務(wù),就是是數(shù)學(xué)研究。
在第一點(diǎn)上,GPT-2030可能具有超人的數(shù)學(xué)能力。
在第二和第三點(diǎn)上,數(shù)學(xué)可以純粹通過思考和寫作來完成,而且如果一個(gè)定理被證明了,我們會(huì)知道。
此外,現(xiàn)在全球并沒有多少數(shù)學(xué)家(在美國只有3000名),因此GPT-2030可能會(huì)在在幾天內(nèi),就模擬出超過所有數(shù)學(xué)家一年內(nèi)產(chǎn)出的成果。
機(jī)器學(xué)習(xí)研究也基本滿足上述標(biāo)準(zhǔn)。
GPT-2030將具有超人的編程能力,包括實(shí)現(xiàn)和運(yùn)行實(shí)驗(yàn)。
它在展示和解釋實(shí)驗(yàn)結(jié)果方面也會(huì)表現(xiàn)相當(dāng)出色,因?yàn)镚PT-4能夠以通俗易懂的方式解釋復(fù)雜主題,同時(shí)市場(chǎng)也對(duì)此有很大需求。
因此,機(jī)器學(xué)習(xí)研究可能會(huì)簡(jiǎn)化為構(gòu)思好要進(jìn)行的實(shí)驗(yàn),然后和高質(zhì)量(但可能不可靠)的實(shí)驗(yàn)結(jié)果報(bào)告交互。
到2030年,碩博研究生可能會(huì)擁有和今天的教授相同的資源,仿佛手上帶了幾名優(yōu)秀學(xué)生。
社會(huì)科學(xué)的發(fā)展可能也會(huì)顯著加速。很多論文的大部分工作是追蹤、分類和標(biāo)記有趣的數(shù)據(jù)來源,并提取模式。
這滿足了要求3,因?yàn)榉诸惡蜆?biāo)記可以分解為簡(jiǎn)單的子任務(wù);也滿足了要求2,只要數(shù)據(jù)可以在互聯(lián)網(wǎng)上獲得,或者可以通過在線調(diào)查收集到。