自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

小數(shù)據(jù)，大前景！美國(guó)智庫(kù)最新報(bào)告：長(zhǎng)期被忽略的小數(shù)據(jù)人工智能潛力不可估量

作者：莓酊編譯 2021-11-09 10:32:43

新聞人工智能

2021年9月，美國(guó)網(wǎng)絡(luò)安全和新興技術(shù)局（Center for Security and Emerging Technology，簡(jiǎn)稱(chēng)CSET）發(fā)布了研究報(bào)告《小數(shù)據(jù)人工智能的巨大潛力》（Small Data’s Big AI Potential ）。

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

2021年9月，美國(guó)網(wǎng)絡(luò)安全和新興技術(shù)局（Center for Security and Emerging Technology，簡(jiǎn)稱(chēng)CSET）發(fā)布了研究報(bào)告《小數(shù)據(jù)人工智能的巨大潛力》（Small Data’s Big AI Potential ）。報(bào)告指明一點(diǎn)：長(zhǎng)期被忽略的小數(shù)據(jù)（Small Data）人工智能潛力不可估量！

論文地址：https://cset.georgetown.edu/publication/small-datas-big-ai-potential/

傳統(tǒng)觀點(diǎn)認(rèn)為，大量數(shù)據(jù)支撐起了尖端人工智能的發(fā)展，大數(shù)據(jù)也一直被奉為打造成功機(jī)器學(xué)習(xí)項(xiàng)目的關(guān)鍵之匙。但AI ≠ Big Data，該研究指出，制定規(guī)則時(shí)如果將——人工智能依賴(lài)巨量數(shù)據(jù)、數(shù)據(jù)是必不可少的戰(zhàn)略資源、獲取數(shù)據(jù)量決定國(guó)家（或公司）的人工智能進(jìn)展—— 視為永恒真理，就會(huì)“誤入歧途”。介于當(dāng)下大環(huán)境過(guò)分強(qiáng)調(diào)大數(shù)據(jù)卻忽略了小數(shù)據(jù)人工智能的存在，低估了它不需要大量標(biāo)記數(shù)據(jù)集或從收集數(shù)據(jù)的潛力，研究人員從四個(gè)方面“縮短大小實(shí)體間AI能力差距、減少個(gè)人數(shù)據(jù)的收集、促進(jìn)數(shù)據(jù)匱乏領(lǐng)域的發(fā)展和避免臟數(shù)據(jù)問(wèn)題”說(shuō)明了“小數(shù)據(jù)”方法的重要性。

一、小數(shù)據(jù)方法是什么？

小數(shù)據(jù)方法是一種只需少量數(shù)據(jù)集就能進(jìn)行訓(xùn)練的人工智能方法。它適用于數(shù)據(jù)量少或沒(méi)有標(biāo)記數(shù)據(jù)可用的情況，減少對(duì)人們收集大量現(xiàn)實(shí)數(shù)據(jù)集的依賴(lài)。

這里所說(shuō)的“小數(shù)據(jù)”并不是明確類(lèi)別，沒(méi)有正式和一致認(rèn)可的定義。學(xué)術(shù)文章討論小數(shù)據(jù)與應(yīng)用領(lǐng)域相關(guān)性時(shí)，常與樣本大小相掛鉤，例如千字節(jié)或兆字節(jié)與 TB 數(shù)據(jù)。對(duì)許多數(shù)據(jù)的引用最終走向都是作為通用資源。然而，數(shù)據(jù)是不可替代的，不同領(lǐng)域的人工智能系統(tǒng)需要不同類(lèi)型的數(shù)據(jù)和方法，具體取決待解決的問(wèn)題。

本文主要從決策者的角度講述“小數(shù)據(jù)”。政府人員通常被看作是人工智能領(lǐng)域潛在的強(qiáng)力參與者，因?yàn)樗麄儗?duì)社會(huì)運(yùn)行規(guī)則更為了解并可以訪問(wèn)大量數(shù)據(jù)——例如氣候監(jiān)測(cè)數(shù)據(jù)、地質(zhì)調(diào)查、邊境控制、社會(huì)保障、選民登記、車(chē)輛和司機(jī)記錄等。人口眾多、數(shù)據(jù)收集能力強(qiáng)被認(rèn)為是國(guó)家人工智能競(jìng)爭(zhēng)能力的重要因素。

一些美國(guó)人認(rèn)為，政府只有可以數(shù)字化、清理和標(biāo)記大量數(shù)據(jù)，才能從人工智能的革命中受益。雖有些道理，但將AI的進(jìn)展都?xì)w功于這些條件是偏頗的。因?yàn)槿斯ぶ悄艿奈磥?lái)不僅只與大數(shù)據(jù)有關(guān)聯(lián)，即使政府部門(mén)沒(méi)有對(duì)大數(shù)據(jù)基礎(chǔ)設(shè)施多加投資，人工智能的創(chuàng)新依舊可以誕生。

二、”小數(shù)據(jù)“方法的分類(lèi)

“小數(shù)據(jù)”方法大致可分為五種：a) 遷移學(xué)習(xí)，b) 數(shù)據(jù)標(biāo)記，c) 人工數(shù)據(jù)生成，d) 貝葉斯方法，以及 e) 強(qiáng)化學(xué)習(xí)。

遷移學(xué)習(xí)（Transfer learning ）的工作原理是先在數(shù)據(jù)豐富的環(huán)境中執(zhí)行任務(wù)，然后將學(xué)到的知識(shí)“遷移”到可用數(shù)據(jù)匱乏的任務(wù)中。

比如，開(kāi)發(fā)人員想做一款用于識(shí)別稀有鳥(niǎo)類(lèi)物種應(yīng)用程序，但每種鳥(niǎo)可能只有幾張標(biāo)有物種的照片。運(yùn)用遷移學(xué)習(xí)，他們先用更大、更通用的圖像數(shù)據(jù)庫(kù)（例如ImageNet）訓(xùn)練基本圖像分類(lèi)器，該數(shù)據(jù)庫(kù)具有數(shù)千個(gè)類(lèi)別標(biāo)記過(guò)的數(shù)百萬(wàn)張圖像。當(dāng)分類(lèi)器能區(qū)分狗與貓、花與水果、麻雀與燕子后，他們就可以將更小的稀有鳥(niǎo)類(lèi)數(shù)據(jù)集“喂養(yǎng)”給它。然后，該模型可以“轉(zhuǎn)移”圖像分類(lèi)的知識(shí)，利用這些知識(shí)從更少的數(shù)據(jù)中學(xué)習(xí)新任務(wù)（識(shí)別稀有鳥(niǎo)類(lèi)）。

數(shù)據(jù)標(biāo)記（Data labeling）適用于有限標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)的情況。使用自動(dòng)生成標(biāo)簽（自動(dòng)標(biāo)記）或識(shí)別標(biāo)簽特別用途的數(shù)據(jù)點(diǎn)（主動(dòng)學(xué)習(xí)）來(lái)處理未標(biāo)記的數(shù)據(jù)。

例如，主動(dòng)學(xué)習(xí)（active learning）已被用于皮膚癌診斷的研究。圖像分類(lèi)模型最初在100張照片上訓(xùn)練，根據(jù)它們的描述判定是癌癥皮膚還是健康皮膚從，而進(jìn)行標(biāo)記。然后該模型會(huì)訪問(wèn)更大的潛在訓(xùn)練圖像集，從中可以選擇 100 張額外的照片標(biāo)記并添加到它的訓(xùn)練數(shù)據(jù)中。

人工數(shù)據(jù)生成（Artificial data generation）是通過(guò)創(chuàng)建新的數(shù)據(jù)點(diǎn)或其他相關(guān)技術(shù)，最大限度地從少量數(shù)據(jù)中提取更多信息。

一個(gè)簡(jiǎn)單的例子，計(jì)算機(jī)視覺(jué)研究人員已經(jīng)能用計(jì)算機(jī)輔助設(shè)計(jì)軟件 (CAD) ——從造船到廣告等行業(yè)廣泛使用的工具——生成日常事物的擬真 3D 圖像，然后用圖像來(lái)增強(qiáng)現(xiàn)有的圖像數(shù)據(jù)集。當(dāng)感興趣的數(shù)據(jù)存在單獨(dú)信息源時(shí)，如本例中是眾包CAD模型時(shí)，這樣的方法可行性更高。

生成額外數(shù)據(jù)的能力不僅在處理小數(shù)據(jù)集時(shí)有用。任何獨(dú)立數(shù)據(jù)的細(xì)節(jié)都可能是敏感的（比如個(gè)人的健康記錄），但研究人員只對(duì)數(shù)據(jù)的整體分布感興趣，這時(shí)人工合成數(shù)據(jù)的優(yōu)勢(shì)就顯現(xiàn)出來(lái)了，它可對(duì)數(shù)據(jù)進(jìn)行隨機(jī)變化從而抹去私人痕跡，更好地保護(hù)了個(gè)人隱私。

貝葉斯方法（Bayesian methods）是通過(guò)統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)，將有關(guān)問(wèn)題的架構(gòu)信息（“先驗(yàn)”信息）納入解決問(wèn)題的方法中，它與大多數(shù)機(jī)器學(xué)習(xí)方法產(chǎn)生了鮮明對(duì)比，傾向于對(duì)問(wèn)題做出最小假設(shè)，更適用于數(shù)據(jù)有限的情況，但可以通過(guò)有效的數(shù)學(xué)形式寫(xiě)出關(guān)于問(wèn)題的信息。貝葉斯方法則側(cè)重對(duì)其預(yù)測(cè)的不確定性產(chǎn)生良好的校準(zhǔn)估計(jì)。

作為貝葉斯推斷運(yùn)用小數(shù)據(jù)的一個(gè)例子：貝葉斯方法被用于監(jiān)測(cè)全球地震活動(dòng)，對(duì)檢測(cè)地殼運(yùn)動(dòng)和核條約有著重大意義。通過(guò)開(kāi)發(fā)結(jié)合地震學(xué)的先驗(yàn)知識(shí)模型，研究人員可以充分利用現(xiàn)有數(shù)據(jù)來(lái)改進(jìn)模型。貝葉斯方法是一個(gè)龐大的族群，不是僅包含了擅長(zhǎng)處理小數(shù)據(jù)集的方法。對(duì)其的一些研究也會(huì)使用大數(shù)據(jù)集。

強(qiáng)化學(xué)習(xí)（Reinforcement learning）是一個(gè)廣義的術(shù)語(yǔ)，指的是機(jī)器學(xué)習(xí)方法，其中智能體（計(jì)算機(jī)系統(tǒng)）通過(guò)反復(fù)試驗(yàn)來(lái)學(xué)習(xí)與環(huán)境交互。強(qiáng)化學(xué)習(xí)通常用于訓(xùn)練游戲系統(tǒng)、機(jī)器人和自動(dòng)駕駛汽車(chē)。

例如，強(qiáng)化學(xué)習(xí)已被用于訓(xùn)練學(xué)習(xí)如何操作視頻游戲的AI系統(tǒng)——從簡(jiǎn)單的街機(jī)游戲（如 Pong）到戰(zhàn)略游戲（如星際爭(zhēng)霸）。系統(tǒng)開(kāi)始時(shí)對(duì)玩游戲知之甚少或一無(wú)所知，但通過(guò)嘗試和觀察摸索獎(jiǎng)勵(lì)信號(hào)出現(xiàn)的原因，從而不斷學(xué)習(xí)。（在視頻游戲的例子中，獎(jiǎng)勵(lì)信號(hào)常以玩家得分的形式呈現(xiàn)。）

強(qiáng)化學(xué)習(xí)系統(tǒng)通常從大量數(shù)據(jù)中學(xué)習(xí)，需要海量計(jì)算資源，因而它們被列入其中似乎是一個(gè)非直觀類(lèi)別。強(qiáng)化學(xué)習(xí)被襄括進(jìn)來(lái)，是因?yàn)樗鼈兪褂玫臄?shù)據(jù)通常是在系統(tǒng)訓(xùn)練時(shí)生成的——多在模擬的環(huán)境中——而不是預(yù)先收集和標(biāo)記。在強(qiáng)化學(xué)習(xí)問(wèn)題中，智能體與環(huán)境交互的能力至關(guān)重要。

圖 1 展示了這些不同區(qū)域是如何相互連接的。每個(gè)點(diǎn)代表一個(gè)研究集群（一組論文），將其確定為屬于上述類(lèi)別之一。連接兩個(gè)研究集群線的粗細(xì)代表它們之間引文鏈接的關(guān)聯(lián)度。沒(méi)有線則表示沒(méi)有引文鏈接。如圖所示，集群與同類(lèi)別集群聯(lián)系最多，但不同類(lèi)集群之間的聯(lián)系也不少。還可以從該圖看到，“強(qiáng)化學(xué)習(xí)”識(shí)別的集群形成了特別連貫的分組，而“人工數(shù)據(jù)”集群則更加分散。

圖1所示，小數(shù)據(jù)研究集群網(wǎng)絡(luò)圖

資料來(lái)源：CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù)，截至 2021 年 2 月 12 日。

三、“小數(shù)據(jù)“方法重要在哪里？

1. 縮短大小實(shí)體間AI能力差距

AI 應(yīng)用程序的大型數(shù)據(jù)集價(jià)值在不斷增長(zhǎng)，不同機(jī)構(gòu)收集、存儲(chǔ)和處理數(shù)據(jù)的能力差異缺令人擔(dān)憂(yōu)。人工智能的“富人”（如大型科技公司）和“窮人”之間也因此拉開(kāi)差距。如果遷移學(xué)習(xí)、自動(dòng)標(biāo)記、貝葉斯方法等能夠在少量數(shù)據(jù)的情況下應(yīng)用于人工智能，那么小型實(shí)體進(jìn)入數(shù)據(jù)方面的壁壘會(huì)大幅降低，這可以縮減大、小實(shí)體之間的能力差距。

2. 減少個(gè)人數(shù)據(jù)的收集

大多數(shù)美國(guó)人認(rèn)為人工智能會(huì)吞并個(gè)人隱私空間。比如大型科技公司愈多收集與個(gè)人身份相關(guān)的消費(fèi)者數(shù)據(jù)來(lái)訓(xùn)練它們的AI算法。某些小數(shù)據(jù)方法能夠減少收集個(gè)人數(shù)據(jù)的行為，人工生成新數(shù)據(jù)（如合成數(shù)據(jù)生成）或使用模擬訓(xùn)練算法的方法，一個(gè)不依賴(lài)于個(gè)人生成的數(shù)據(jù)，另一個(gè)則具有合成數(shù)據(jù)去除敏感的個(gè)人身份屬性的能力。雖然不能將所有隱私擔(dān)憂(yōu)都解決，但通過(guò)減少收集大規(guī)模真實(shí)數(shù)據(jù)的需要，讓使用機(jī)器學(xué)習(xí)變得更簡(jiǎn)單，從而讓人們對(duì)大規(guī)模收集、使用或披露消費(fèi)者數(shù)據(jù)不再擔(dān)憂(yōu)。

3. 促進(jìn)數(shù)據(jù)匱乏領(lǐng)域的發(fā)展

可用數(shù)據(jù)的爆炸式增長(zhǎng)推動(dòng)了人工智能的新發(fā)展。但對(duì)于許多亟待解決的問(wèn)題，可以輸入人工智能系統(tǒng)的數(shù)據(jù)卻很少或者根本不存在。比如，為沒(méi)有電子健康記錄的人構(gòu)建預(yù)測(cè)疾病風(fēng)險(xiǎn)的算法，或者預(yù)測(cè)活火山突然噴發(fā)的可能性。小數(shù)據(jù)方法以提供原則性的方式來(lái)處理數(shù)據(jù)缺失或匱乏。它可以利用標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)，從相關(guān)問(wèn)題遷移知識(shí)。小數(shù)據(jù)也可以用少量數(shù)據(jù)點(diǎn)創(chuàng)建更多數(shù)據(jù)點(diǎn)，憑借關(guān)聯(lián)領(lǐng)域的先驗(yàn)知識(shí)，或通過(guò)構(gòu)建模擬或編碼結(jié)構(gòu)假設(shè)去開(kāi)始新領(lǐng)域的冒險(xiǎn)。

4. 避免臟數(shù)據(jù)問(wèn)題

小數(shù)據(jù)方法能讓對(duì)“臟數(shù)據(jù)”煩不勝煩的大型機(jī)構(gòu)受益。數(shù)據(jù)是一直存在的，但想要它干凈、結(jié)構(gòu)整齊且便于分析就還有很長(zhǎng)的路要走。比如由于孤立的數(shù)據(jù)基礎(chǔ)設(shè)施和遺留系統(tǒng)，美國(guó)國(guó)防部擁有不可計(jì)數(shù)的“臟數(shù)據(jù)”，需要耗費(fèi)大量人力物力進(jìn)行數(shù)據(jù)清理、標(biāo)記和整理才能夠“凈化”它們。小數(shù)據(jù)方法中數(shù)據(jù)標(biāo)記法可以通過(guò)自動(dòng)生成標(biāo)簽更輕松地處理大量未標(biāo)記的數(shù)據(jù)。遷移學(xué)習(xí)、貝葉斯方法或人工數(shù)據(jù)方法可以通過(guò)減少需要清理的數(shù)據(jù)量，分別依據(jù)相關(guān)數(shù)據(jù)集、結(jié)構(gòu)化模型和合成數(shù)據(jù)來(lái)顯著降低臟數(shù)據(jù)問(wèn)題的規(guī)模。

對(duì)于從事人工智能工作的決策者而言，清楚地了解數(shù)據(jù)在人工智能發(fā)展中所扮演的角色和無(wú)法勝任的工作都至關(guān)重要。上述因素不適用于所有方法。例如，強(qiáng)化學(xué)習(xí)一般需要大量數(shù)據(jù)，但這些數(shù)據(jù)是在訓(xùn)練過(guò)程中生成的（例如，當(dāng) AI 系統(tǒng)移動(dòng)機(jī)器人手臂或在虛擬環(huán)境中導(dǎo)航時(shí)），并不是預(yù)先收集的。

四、研究進(jìn)展

在研究量方面，過(guò)去十年中五種“小數(shù)據(jù)”方法的曲線變化有著非同尋常的軌跡。如圖2所示，強(qiáng)化學(xué)習(xí)和貝葉斯方法是論文數(shù)量最大的兩個(gè)類(lèi)別。貝葉斯集群論文量在過(guò)去十年間穩(wěn)步增長(zhǎng)，強(qiáng)化學(xué)習(xí)相關(guān)集群的論文量從2015年才開(kāi)始有所增長(zhǎng)，2017—2019年期間的增長(zhǎng)尤為迅速。因?yàn)樯疃葟?qiáng)化學(xué)習(xí)一直處于瓶頸期，直到2015年經(jīng)歷了技術(shù)性變革。相比之下，過(guò)去十年間，每年以集群形式發(fā)表的人工數(shù)據(jù)生成和數(shù)據(jù)標(biāo)記研究論文數(shù)量一直是鳳毛麟角。最后，遷移學(xué)習(xí)類(lèi)的論文在 2010 時(shí)的數(shù)量比較少，但到 2020 年已實(shí)現(xiàn)大幅增長(zhǎng)。

圖2. 2010-2020 年小數(shù)據(jù)出版物的趨勢(shì)

資料來(lái)源：CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù)，截至 2021 年 2 月 12 日。

出版物的絕對(duì)數(shù)量并不能代表論文的質(zhì)量。因此，研究人員利用兩個(gè)指標(biāo)來(lái)衡量每個(gè)類(lèi)別集群中論文的質(zhì)量：H指數(shù)和年限校正引用。H指數(shù)是常用的度量標(biāo)準(zhǔn)，表示論文的出版活動(dòng)和總引用次數(shù)。H指數(shù)存在一個(gè)局限性是，沒(méi)有考慮到論文出版時(shí)限（即較早的論文能夠有更多的時(shí)間積累引用量的事實(shí)）。H指數(shù)低估了那些最有影響力且尚未收集引文的新發(fā)表論文集群。為調(diào)整上述問(wèn)題，圖3還描繪了經(jīng)年限校正的引文。僅就 H指數(shù)而言，強(qiáng)化學(xué)習(xí)和貝葉斯方法大致相當(dāng)，但考慮到論文的時(shí)限，強(qiáng)化學(xué)習(xí)脫穎而出。就五種“小數(shù)據(jù)”方法而論，貝葉斯方法的累積影響似乎更高，強(qiáng)化學(xué)習(xí)因其相對(duì)近期論文產(chǎn)量和引用影響的激增而一騎絕塵。

圖3. 2010-2020 年按類(lèi)別劃分的 H 指數(shù)和年限校正引用

資料來(lái)源：CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù)，截至 2021 年 2 月 1 日。

但如果認(rèn)定強(qiáng)化學(xué)習(xí)是過(guò)去十年中增長(zhǎng)最快的，那就大錯(cuò)特錯(cuò)了。更仔細(xì)地觀察每個(gè)類(lèi)別隨時(shí)間變化的增長(zhǎng)情況，圖4清楚地表明，2011至2020年間，遷移學(xué)習(xí)的增長(zhǎng)最為穩(wěn)定（其中有兩年除外），其他所有年份的增長(zhǎng)都是最快的。該圖表還顯示了人工數(shù)據(jù)生成在過(guò)去五年中實(shí)現(xiàn)的增長(zhǎng)，這在圖3中不太明顯，因?yàn)檫@一類(lèi)別的論文總數(shù)很少。然而，2012至2015年間，增長(zhǎng)數(shù)據(jù)也出現(xiàn)了最大幅度的下降，這使得人們很難根據(jù)類(lèi)別的增長(zhǎng)軌跡得出具體結(jié)論。

圖4. 2011-2020 年按類(lèi)別劃分的同比增長(zhǎng)

資料來(lái)源：CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù)，截至 2021 年 2 月 12 日。

圖5是利用CSET開(kāi)發(fā)的預(yù)測(cè)模型，對(duì)每類(lèi)三年增長(zhǎng)預(yù)期以另一類(lèi)‘Al綜述’論文作為基準(zhǔn)進(jìn)行比較。如圖所示，遷移學(xué)習(xí)是唯一被預(yù)測(cè)比整體Al研究增長(zhǎng)更快的類(lèi)別，遠(yuǎn)遠(yuǎn)超過(guò)其他所有類(lèi)別，與前幾年的持續(xù)增長(zhǎng)態(tài)勢(shì)保持一致。

圖5. 按類(lèi)別劃分的 2023 年增長(zhǎng)預(yù)測(cè)

資料來(lái)源：CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù)，截至 2021 年 2 月 12 日。

注：未來(lái)增長(zhǎng)指數(shù)是根據(jù) CSET 對(duì)研究集群增長(zhǎng)的預(yù)測(cè)計(jì)算得出的。

五、國(guó)家競(jìng)爭(zhēng)力

通過(guò)查看全球前10個(gè)國(guó)家在每種方法中取得的研究進(jìn)展，可以推導(dǎo)出小數(shù)據(jù)方法的國(guó)家競(jìng)爭(zhēng)力。以簡(jiǎn)單的衡量指標(biāo)，如發(fā)表論文數(shù)量和按年限調(diào)整的引用次數(shù)，初步了解各國(guó)在五種“小數(shù)據(jù)”方法的相應(yīng)地位。

與AI研究的總體結(jié)果一致，中國(guó)和美國(guó)是研究“小數(shù)據(jù)”集群論文量前兩位，緊隨其后的是英國(guó)。中國(guó)在數(shù)據(jù)標(biāo)記和遷移學(xué)習(xí)方法領(lǐng)域的學(xué)術(shù)出版物總數(shù)遙遙領(lǐng)先，而美國(guó)在貝葉斯方法、強(qiáng)化學(xué)習(xí)和人工數(shù)據(jù)生成方面較有優(yōu)勢(shì)。除美國(guó)和中國(guó)外，其他小數(shù)據(jù)研究排名前10位的國(guó)家都是美國(guó)的盟友或合作伙伴，俄羅斯等國(guó)明顯缺席榜單。當(dāng)前學(xué)術(shù)界常用論文引用量經(jīng)衡量研究質(zhì)量和影響。中國(guó)在所有小數(shù)據(jù)類(lèi)別中的按年限調(diào)整引用量排名第二，在貝葉斯方法中的排名降至第七。

圖6顯示的是按國(guó)家細(xì)分的三年增長(zhǎng)預(yù)測(cè)情況。相對(duì)于美國(guó)和世界其他地區(qū)，中國(guó)在遷移學(xué)習(xí)方法方面的增長(zhǎng)預(yù)計(jì)會(huì)大幅提升。這一測(cè)如果準(zhǔn)確，意味著中國(guó)會(huì)在遷移學(xué)習(xí)方面發(fā)展得更快更遠(yuǎn)。

圖6. 2023 年美國(guó)、中國(guó)和世界其他地區(qū)（ROW）按類(lèi)別劃分的增長(zhǎng)預(yù)測(cè)

資料來(lái)源：CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù)，截至 2021 年 2 月 12 日。

六、資金籌集

研究人員分析了可用于小數(shù)據(jù)方法的資助數(shù)據(jù)，以確定研究集群中資助論文實(shí)體類(lèi)型的估量。對(duì)于上述調(diào)研結(jié)果，只有大約 20-30% 的論文的資助信息。

在各個(gè)領(lǐng)域中，在政府、公司、學(xué)術(shù)界和非營(yíng)利組織中，政府人員一般是研究的重要資助者。在全球范圍內(nèi)，政府資助在“小數(shù)據(jù)”方法集群中所占的比例遠(yuǎn)高于人工智能整個(gè)領(lǐng)域。如圖7所示，在所有5大類(lèi)別中，與AI研究整體的經(jīng)費(fèi)分解相比，政府資助的份額非常高。非盈利組織在用于小數(shù)據(jù)研究的資金中所占的比例比通常用于人工智能的其余部分要小。貝葉斯方法的資助模式與AI總體上最為相似。

圖7. 與 AI 整體相關(guān)的數(shù)據(jù)方法的資金來(lái)源

資料來(lái)源：CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù)，截至 2021 年 2 月 12 日。

圖 8 進(jìn)一步按國(guó)家/地區(qū)細(xì)分了與政府相關(guān)的資金信息。研究結(jié)果表明，政府在小數(shù)據(jù)中投入資金所占比例總體呈上升趨勢(shì)，但整體來(lái)看，美國(guó)政府對(duì)小數(shù)據(jù)研究的資金份額低于其在人工智能方面的份額。個(gè)體機(jī)構(gòu)、企業(yè)傾向于為美國(guó)的小數(shù)據(jù)研究提供比整個(gè)Al研究更大的份額。

圖8. 中國(guó)、美國(guó)和世界其他地區(qū)（ROW）對(duì)于人工智能相關(guān)的小數(shù)據(jù)方法的政府資助

資料來(lái)源：CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù)，截至 2021 年 2 月 12 日。

七、總結(jié)

a) 人工智能不等于大數(shù)據(jù)。

b) 對(duì)遷移學(xué)習(xí)的研究進(jìn)展飛快，在未來(lái)遷移學(xué)習(xí)會(huì)更有效地被更廣泛應(yīng)用。

c) 美國(guó)和中國(guó)在小數(shù)據(jù)方法方面的競(jìng)爭(zhēng)非常激烈。美國(guó)在強(qiáng)化學(xué)習(xí)和貝葉斯方法這兩個(gè)類(lèi)別中處于優(yōu)勢(shì)，而中國(guó)在增長(zhǎng)最快的遷移學(xué)習(xí)類(lèi)別中一馬當(dāng)先，并且將差距在逐漸加大。

d) 目前相對(duì)于整個(gè)人工智能領(lǐng)域的投資模式而言，美國(guó)在小數(shù)據(jù)方法上的投資份額更小，因此遷移學(xué)習(xí)可能是美國(guó)政府加大資金投入的前景目標(biāo)。

責(zé)任編輯：張燕妮來(lái)源：雷鋒網(wǎng)

人工智能小數(shù)據(jù)技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="zuib3"><track id="zuib3"></track></legend>