自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

小數(shù)據(jù),大前景 !美國(guó)智庫(kù)最新報(bào)告:長(zhǎng)期被忽略的小數(shù)據(jù)人工智能潛力不可估量

新聞 人工智能
2021年9月,美國(guó)網(wǎng)絡(luò)安全和新興技術(shù)局(Center for Security and Emerging Technology,簡(jiǎn)稱(chēng)CSET)發(fā)布了研究報(bào)告《小數(shù)據(jù)人工智能的巨大潛力》(Small Data’s Big AI Potential )。

 

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

2021年9月,美國(guó)網(wǎng)絡(luò)安全和新興技術(shù)局(Center for Security and Emerging Technology,簡(jiǎn)稱(chēng)CSET)發(fā)布了研究報(bào)告《小數(shù)據(jù)人工智能的巨大潛力》(Small Data’s Big AI Potential )。報(bào)告指明一點(diǎn):長(zhǎng)期被忽略的小數(shù)據(jù)(Small Data)人工智能潛力不可估量!

 

 

論文地址:https://cset.georgetown.edu/publication/small-datas-big-ai-potential/

 

 

傳統(tǒng)觀點(diǎn)認(rèn)為,大量數(shù)據(jù)支撐起了尖端人工智能的發(fā)展,大數(shù)據(jù)也一直被奉為打造成功機(jī)器學(xué)習(xí)項(xiàng)目的關(guān)鍵之匙。但AI ≠ Big Data,該研究指出,制定規(guī)則時(shí)如果將——人工智能依賴(lài)巨量數(shù)據(jù)、數(shù)據(jù)是必不可少的戰(zhàn)略資源、獲取數(shù)據(jù)量決定國(guó)家(或公司)的人工智能進(jìn)展—— 視為永恒真理,就會(huì)“誤入歧途”。介于當(dāng)下大環(huán)境過(guò)分強(qiáng)調(diào)大數(shù)據(jù)卻忽略了小數(shù)據(jù)人工智能的存在,低估了它不需要大量標(biāo)記數(shù)據(jù)集或從收集數(shù)據(jù)的潛力,研究人員從四個(gè)方面“縮短大小實(shí)體間AI能力差距、減少個(gè)人數(shù)據(jù)的收集、促進(jìn)數(shù)據(jù)匱乏領(lǐng)域的發(fā)展和避免臟數(shù)據(jù)問(wèn)題”說(shuō)明了“小數(shù)據(jù)”方法的重要性。

 

 

一、小數(shù)據(jù)方法是什么?

 

小數(shù)據(jù)方法是一種只需少量數(shù)據(jù)集就能進(jìn)行訓(xùn)練的人工智能方法。它適用于數(shù)據(jù)量少或沒(méi)有標(biāo)記數(shù)據(jù)可用的情況,減少對(duì)人們收集大量現(xiàn)實(shí)數(shù)據(jù)集的依賴(lài)。

這里所說(shuō)的“小數(shù)據(jù)”并不是明確類(lèi)別,沒(méi)有正式和一致認(rèn)可的定義。學(xué)術(shù)文章討論小數(shù)據(jù)與應(yīng)用領(lǐng)域相關(guān)性時(shí),常與樣本大小相掛鉤,例如千字節(jié)或兆字節(jié)與 TB 數(shù)據(jù)。對(duì)許多數(shù)據(jù)的引用最終走向都是作為通用資源。然而,數(shù)據(jù)是不可替代的,不同領(lǐng)域的人工智能系統(tǒng)需要不同類(lèi)型的數(shù)據(jù)和方法,具體取決待解決的問(wèn)題。

本文主要從決策者的角度講述“小數(shù)據(jù)”。政府人員通常被看作是人工智能領(lǐng)域潛在的強(qiáng)力參與者,因?yàn)樗麄儗?duì)社會(huì)運(yùn)行規(guī)則更為了解并可以訪問(wèn)大量數(shù)據(jù)——例如氣候監(jiān)測(cè)數(shù)據(jù)、地質(zhì)調(diào)查、邊境控制、社會(huì)保障、 選民登記、車(chē)輛和司機(jī)記錄等。人口眾多、數(shù)據(jù)收集能力強(qiáng)被認(rèn)為是國(guó)家人工智能競(jìng)爭(zhēng)能力的重要因素。

一些美國(guó)人認(rèn)為,政府只有可以數(shù)字化、清理和標(biāo)記大量數(shù)據(jù),才能從人工智能的革命中受益。雖有些道理,但將AI的進(jìn)展都?xì)w功于這些條件是偏頗的。因?yàn)槿斯ぶ悄艿奈磥?lái)不僅只與大數(shù)據(jù)有關(guān)聯(lián),即使政府部門(mén)沒(méi)有對(duì)大數(shù)據(jù)基礎(chǔ)設(shè)施多加投資,人工智能的創(chuàng)新依舊可以誕生。

二、”小數(shù)據(jù)“方法的分類(lèi)

“小數(shù)據(jù)”方法大致可分為五種:a) 遷移學(xué)習(xí),b) 數(shù)據(jù)標(biāo)記,c) 人工數(shù)據(jù)生成,d) 貝葉斯方法,以及 e) 強(qiáng)化學(xué)習(xí)。

遷移學(xué)習(xí)(Transfer learning )的工作原理是先在數(shù)據(jù)豐富的環(huán)境中執(zhí)行任務(wù),然后將學(xué)到的知識(shí)“遷移”到可用數(shù)據(jù)匱乏的任務(wù)中。

比如,開(kāi)發(fā)人員想做一款用于識(shí)別稀有鳥(niǎo)類(lèi)物種應(yīng)用程序,但每種鳥(niǎo)可能只有幾張標(biāo)有物種的照片。運(yùn)用遷移學(xué)習(xí),他們先用更大、更通用的圖像數(shù)據(jù)庫(kù)(例如ImageNet)訓(xùn)練基本圖像分類(lèi)器,該數(shù)據(jù)庫(kù)具有數(shù)千個(gè)類(lèi)別標(biāo)記過(guò)的數(shù)百萬(wàn)張圖像。當(dāng)分類(lèi)器能區(qū)分狗與貓、花與水果、麻雀與燕子后,他們就可以將更小的稀有鳥(niǎo)類(lèi)數(shù)據(jù)集“喂養(yǎng)”給它。然后,該模型可以“轉(zhuǎn)移”圖像分類(lèi)的知識(shí),利用這些知識(shí)從更少的數(shù)據(jù)中學(xué)習(xí)新任務(wù)(識(shí)別稀有鳥(niǎo)類(lèi))。

數(shù)據(jù)標(biāo)記(Data labeling)適用于有限標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)的情況。使用自動(dòng)生成標(biāo)簽(自動(dòng)標(biāo)記)或識(shí)別標(biāo)簽特別用途的數(shù)據(jù)點(diǎn)(主動(dòng)學(xué)習(xí))來(lái)處理未標(biāo)記的數(shù)據(jù)。

例如,主動(dòng)學(xué)習(xí)(active learning)已被用于皮膚癌診斷的研究。圖像分類(lèi)模型最初在100張照片上訓(xùn)練,根據(jù)它們的描述判定是癌癥皮膚還是健康皮膚從,而進(jìn)行標(biāo)記。然后該模型會(huì)訪問(wèn)更大的潛在訓(xùn)練圖像集,從中可以選擇 100 張額外的照片標(biāo)記并添加到它的訓(xùn)練數(shù)據(jù)中。

人工數(shù)據(jù)生成(Artificial data generation)是通過(guò)創(chuàng)建新的數(shù)據(jù)點(diǎn)或其他相關(guān)技術(shù),最大限度地從少量數(shù)據(jù)中提取更多信息。

一個(gè)簡(jiǎn)單的例子,計(jì)算機(jī)視覺(jué)研究人員已經(jīng)能用計(jì)算機(jī)輔助設(shè)計(jì)軟件 (CAD) ——從造船到廣告等行業(yè)廣泛使用的工具——生成日常事物的擬真 3D 圖像,然后用圖像來(lái)增強(qiáng)現(xiàn)有的圖像數(shù)據(jù)集。當(dāng)感興趣的數(shù)據(jù)存在單獨(dú)信息源時(shí),如本例中是眾包CAD模型時(shí),這樣的方法可行性更高。

生成額外數(shù)據(jù)的能力不僅在處理小數(shù)據(jù)集時(shí)有用。任何獨(dú)立數(shù)據(jù)的細(xì)節(jié)都可能是敏感的(比如個(gè)人的健康記錄),但研究人員只對(duì)數(shù)據(jù)的整體分布感興趣,這時(shí)人工合成數(shù)據(jù)的優(yōu)勢(shì)就顯現(xiàn)出來(lái)了,它可對(duì)數(shù)據(jù)進(jìn)行隨機(jī)變化從而抹去私人痕跡,更好地保護(hù)了個(gè)人隱私。

貝葉斯方法(Bayesian methods)是通過(guò)統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí),將有關(guān)問(wèn)題的架構(gòu)信息(“先驗(yàn)”信息)納入解決問(wèn)題的方法中,它與大多數(shù)機(jī)器學(xué)習(xí)方法產(chǎn)生了鮮明對(duì)比,傾向于對(duì)問(wèn)題做出最小假設(shè),更適用于數(shù)據(jù)有限的情況,但可以通過(guò)有效的數(shù)學(xué)形式寫(xiě)出關(guān)于問(wèn)題的信息。貝葉斯方法則側(cè)重對(duì)其預(yù)測(cè)的不確定性產(chǎn)生良好的校準(zhǔn)估計(jì)。

作為貝葉斯推斷運(yùn)用小數(shù)據(jù)的一個(gè)例子:貝葉斯方法被用于監(jiān)測(cè)全球地震活動(dòng),對(duì)檢測(cè)地殼運(yùn)動(dòng)和核條約有著重大意義。通過(guò)開(kāi)發(fā)結(jié)合地震學(xué)的先驗(yàn)知識(shí)模型,研究人員可以充分利用現(xiàn)有數(shù)據(jù)來(lái)改進(jìn)模型。貝葉斯方法是一個(gè)龐大的族群,不是僅包含了擅長(zhǎng)處理小數(shù)據(jù)集的方法。對(duì)其的一些研究也會(huì)使用大數(shù)據(jù)集。

強(qiáng)化學(xué)習(xí)(Reinforcement learning)是一個(gè)廣義的術(shù)語(yǔ),指的是機(jī)器學(xué)習(xí)方法,其中智能體(計(jì)算機(jī)系統(tǒng))通過(guò)反復(fù)試驗(yàn)來(lái)學(xué)習(xí)與環(huán)境交互。強(qiáng)化學(xué)習(xí)通常用于訓(xùn)練游戲系統(tǒng)、機(jī)器人和自動(dòng)駕駛汽車(chē)。

例如,強(qiáng)化學(xué)習(xí)已被用于訓(xùn)練學(xué)習(xí)如何操作視頻游戲的AI系統(tǒng)——從簡(jiǎn)單的街機(jī)游戲(如 Pong)到戰(zhàn)略游戲(如星際爭(zhēng)霸)。系統(tǒng)開(kāi)始時(shí)對(duì)玩游戲知之甚少或一無(wú)所知,但通過(guò)嘗試和觀察摸索獎(jiǎng)勵(lì)信號(hào)出現(xiàn)的原因,從而不斷學(xué)習(xí)。(在視頻游戲的例子中,獎(jiǎng)勵(lì)信號(hào)常以玩家得分的形式呈現(xiàn)。)

強(qiáng)化學(xué)習(xí)系統(tǒng)通常從大量數(shù)據(jù)中學(xué)習(xí),需要海量計(jì)算資源,因而它們被列入其中似乎是一個(gè)非直觀類(lèi)別。強(qiáng)化學(xué)習(xí)被襄括進(jìn)來(lái),是因?yàn)樗鼈兪褂玫臄?shù)據(jù)通常是在系統(tǒng)訓(xùn)練時(shí)生成的——多在模擬的環(huán)境中——而不是預(yù)先收集和標(biāo)記。在強(qiáng)化學(xué)習(xí)問(wèn)題中,智能體與環(huán)境交互的能力至關(guān)重要。

圖 1 展示了這些不同區(qū)域是如何相互連接的。每個(gè)點(diǎn)代表一個(gè)研究集群(一組論文),將其確定為屬于上述類(lèi)別之一。連接兩個(gè)研究集群線的粗細(xì)代表它們之間引文鏈接的關(guān)聯(lián)度。沒(méi)有線則表示沒(méi)有引文鏈接。如圖所示,集群與同類(lèi)別集群聯(lián)系最多,但不同類(lèi)集群之間的聯(lián)系也不少。還可以從該圖看到,“強(qiáng)化學(xué)習(xí)”識(shí)別的集群形成了特別連貫的分組,而“人工數(shù)據(jù)”集群則更加分散。

圖1所示,小數(shù)據(jù)研究集群網(wǎng)絡(luò)圖

資料來(lái)源:CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù),截至 2021 年 2 月 12 日。

三、“小數(shù)據(jù)“方法重要在哪里?

1. 縮短大小實(shí)體間AI能力差距

AI 應(yīng)用程序的大型數(shù)據(jù)集價(jià)值在不斷增長(zhǎng),不同機(jī)構(gòu)收集、存儲(chǔ)和處理數(shù)據(jù)的能力差異缺令人擔(dān)憂(yōu)。人工智能的“富人”(如大型科技公司)和“窮人”之間也因此拉開(kāi)差距。如果遷移學(xué)習(xí)、自動(dòng)標(biāo)記、貝葉斯方法等能夠在少量數(shù)據(jù)的情況下應(yīng)用于人工智能,那么小型實(shí)體進(jìn)入數(shù)據(jù)方面的壁壘會(huì)大幅降低,這可以縮減大、小實(shí)體之間的能力差距。

2. 減少個(gè)人數(shù)據(jù)的收集

大多數(shù)美國(guó)人認(rèn)為人工智能會(huì)吞并個(gè)人隱私空間。比如大型科技公司愈多收集與個(gè)人身份相關(guān)的消費(fèi)者數(shù)據(jù)來(lái)訓(xùn)練它們的AI算法。某些小數(shù)據(jù)方法能夠減少收集個(gè)人數(shù)據(jù)的行為,人工生成新數(shù)據(jù)(如合成數(shù)據(jù)生成)或使用模擬訓(xùn)練算法的方法,一個(gè)不依賴(lài)于個(gè)人生成的數(shù)據(jù),另一個(gè)則具有合成數(shù)據(jù)去除敏感的個(gè)人身份屬性的能力。雖然不能將所有隱私擔(dān)憂(yōu)都解決,但通過(guò)減少收集大規(guī)模真實(shí)數(shù)據(jù)的需要,讓使用機(jī)器學(xué)習(xí)變得更簡(jiǎn)單,從而讓人們對(duì)大規(guī)模收集、使用或披露消費(fèi)者數(shù)據(jù)不再擔(dān)憂(yōu)。

3. 促進(jìn)數(shù)據(jù)匱乏領(lǐng)域的發(fā)展

可用數(shù)據(jù)的爆炸式增長(zhǎng)推動(dòng)了人工智能的新發(fā)展。但對(duì)于許多亟待解決的問(wèn)題,可以輸入人工智能系統(tǒng)的數(shù)據(jù)卻很少或者根本不存在。比如,為沒(méi)有電子健康記錄的人構(gòu)建預(yù)測(cè)疾病風(fēng)險(xiǎn)的算法,或者預(yù)測(cè)活火山突然噴發(fā)的可能性。小數(shù)據(jù)方法以提供原則性的方式來(lái)處理數(shù)據(jù)缺失或匱乏。它可以利用標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù),從相關(guān)問(wèn)題遷移知識(shí)。小數(shù)據(jù)也可以用少量數(shù)據(jù)點(diǎn)創(chuàng)建更多數(shù)據(jù)點(diǎn),憑借關(guān)聯(lián)領(lǐng)域的先驗(yàn)知識(shí),或通過(guò)構(gòu)建模擬或編碼結(jié)構(gòu)假設(shè)去開(kāi)始新領(lǐng)域的冒險(xiǎn)。

4. 避免臟數(shù)據(jù)問(wèn)題

小數(shù)據(jù)方法能讓對(duì)“臟數(shù)據(jù)”煩不勝煩的大型機(jī)構(gòu)受益。數(shù)據(jù)是一直存在的,但想要它干凈、結(jié)構(gòu)整齊且便于分析就還有很長(zhǎng)的路要走。比如由于孤立的數(shù)據(jù)基礎(chǔ)設(shè)施和遺留系統(tǒng),美國(guó)國(guó)防部擁有不可計(jì)數(shù)的“臟數(shù)據(jù)”,需要耗費(fèi)大量人力物力進(jìn)行數(shù)據(jù)清理、標(biāo)記和整理才能夠“凈化”它們。小數(shù)據(jù)方法中數(shù)據(jù)標(biāo)記法可以通過(guò)自動(dòng)生成標(biāo)簽更輕松地處理大量未標(biāo)記的數(shù)據(jù)。遷移學(xué)習(xí)、貝葉斯方法或人工數(shù)據(jù)方法可以通過(guò)減少需要清理的數(shù)據(jù)量,分別依據(jù)相關(guān)數(shù)據(jù)集、結(jié)構(gòu)化模型和合成數(shù)據(jù)來(lái)顯著降低臟數(shù)據(jù)問(wèn)題的規(guī)模。

對(duì)于從事人工智能工作的決策者而言,清楚地了解數(shù)據(jù)在人工智能發(fā)展中所扮演的角色和無(wú)法勝任的工作都至關(guān)重要。上述因素不適用于所有方法。例如,強(qiáng)化學(xué)習(xí)一般需要大量數(shù)據(jù),但這些數(shù)據(jù)是在訓(xùn)練過(guò)程中生成的(例如,當(dāng) AI 系統(tǒng)移動(dòng)機(jī)器人手臂或在虛擬環(huán)境中導(dǎo)航時(shí)),并不是預(yù)先收集的。

四、研究進(jìn)展

在研究量方面,過(guò)去十年中五種“小數(shù)據(jù)”方法的曲線變化有著非同尋常的軌跡。如圖2所示,強(qiáng)化學(xué)習(xí)和貝葉斯方法是論文數(shù)量最大的兩個(gè)類(lèi)別。貝葉斯集群論文量在過(guò)去十年間穩(wěn)步增長(zhǎng),強(qiáng)化學(xué)習(xí)相關(guān)集群的論文量從2015年才開(kāi)始有所增長(zhǎng),2017—2019年期間的增長(zhǎng)尤為迅速。因?yàn)樯疃葟?qiáng)化學(xué)習(xí)一直處于瓶頸期,直到2015年經(jīng)歷了技術(shù)性變革。相比之下,過(guò)去十年間,每年以集群形式發(fā)表的人工數(shù)據(jù)生成和數(shù)據(jù)標(biāo)記研究論文數(shù)量一直是鳳毛麟角。最后,遷移學(xué)習(xí)類(lèi)的論文在 2010 時(shí)的數(shù)量比較少,但到 2020 年已實(shí)現(xiàn)大幅增長(zhǎng)。

圖2. 2010-2020 年小數(shù)據(jù)出版物的趨勢(shì)

資料來(lái)源:CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù),截至 2021 年 2 月 12 日。

出版物的絕對(duì)數(shù)量并不能代表論文的質(zhì)量。因此,研究人員利用兩個(gè)指標(biāo)來(lái)衡量每個(gè)類(lèi)別集群中論文的質(zhì)量:H指數(shù)和年限校正引用。H指數(shù)是常用的度量標(biāo)準(zhǔn),表示論文的出版活動(dòng)和總引用次數(shù)。H指數(shù)存在一個(gè)局限性是,沒(méi)有考慮到論文出版時(shí)限(即較早的論文能夠有更多的時(shí)間積累引用量的事實(shí))。H指數(shù)低估了那些最有影響力且尚未收集引文的新發(fā)表論文集群。為調(diào)整上述問(wèn)題,圖3還描繪了經(jīng)年限校正的引文。僅就 H指數(shù)而言,強(qiáng)化學(xué)習(xí)和貝葉斯方法大致相當(dāng),但考慮到論文的時(shí)限,強(qiáng)化學(xué)習(xí)脫穎而出。就五種“小數(shù)據(jù)”方法而論,貝葉斯方法的累積影響似乎更高,強(qiáng)化學(xué)習(xí)因其相對(duì)近期論文產(chǎn)量和引用影響的激增而一騎絕塵。

圖3. 2010-2020 年按類(lèi)別劃分的 H 指數(shù)和年限校正引用

資料來(lái)源:CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù),截至 2021 年 2 月 1 日。

 

但如果認(rèn)定強(qiáng)化學(xué)習(xí)是過(guò)去十年中增長(zhǎng)最快的,那就大錯(cuò)特錯(cuò)了。更仔細(xì)地觀察每個(gè)類(lèi)別隨時(shí)間變化的增長(zhǎng)情況,圖4清楚地表明,2011至2020年間,遷移學(xué)習(xí)的增長(zhǎng)最為穩(wěn)定(其中有兩年除外),其他所有年份的增長(zhǎng)都是最快的。該圖表還顯示了人工數(shù)據(jù)生成在過(guò)去五年中實(shí)現(xiàn)的增長(zhǎng),這在圖3中不太明顯,因?yàn)檫@一類(lèi)別的論文總數(shù)很少。然而,2012至2015年間,增長(zhǎng)數(shù)據(jù)也出現(xiàn)了最大幅度的下降,這使得人們很難根據(jù)類(lèi)別的增長(zhǎng)軌跡得出具體結(jié)論。

 

圖4. 2011-2020 年按類(lèi)別劃分的同比增長(zhǎng)

 

 

資料來(lái)源:CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù),截至 2021 年 2 月 12 日。

 

 

圖5是利用CSET開(kāi)發(fā)的預(yù)測(cè)模型,對(duì)每類(lèi)三年增長(zhǎng)預(yù)期以另一類(lèi)‘Al綜述’論文作為基準(zhǔn)進(jìn)行比較。如圖所示,遷移學(xué)習(xí)是唯一被預(yù)測(cè)比整體Al研究增長(zhǎng)更快的類(lèi)別,遠(yuǎn)遠(yuǎn)超過(guò)其他所有類(lèi)別,與前幾年的持續(xù)增長(zhǎng)態(tài)勢(shì)保持一致。

 

 

圖5. 按類(lèi)別劃分的 2023 年增長(zhǎng)預(yù)測(cè)

資料來(lái)源:CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù),截至 2021 年 2 月 12 日。

注:未來(lái)增長(zhǎng)指數(shù)是根據(jù) CSET 對(duì)研究集群增長(zhǎng)的預(yù)測(cè)計(jì)算得出的。

五、國(guó)家競(jìng)爭(zhēng)力

通過(guò)查看全球前10個(gè)國(guó)家在每種方法中取得的研究進(jìn)展,可以推導(dǎo)出小數(shù)據(jù)方法的國(guó)家競(jìng)爭(zhēng)力。以簡(jiǎn)單的衡量指標(biāo),如發(fā)表論文數(shù)量和按年限調(diào)整的引用次數(shù),初步了解各國(guó)在五種“小數(shù)據(jù)”方法的相應(yīng)地位。

與AI研究的總體結(jié)果一致,中國(guó)和美國(guó)是研究“小數(shù)據(jù)”集群論文量前兩位,緊隨其后的是英國(guó)。中國(guó)在數(shù)據(jù)標(biāo)記和遷移學(xué)習(xí)方法領(lǐng)域的學(xué)術(shù)出版物總數(shù)遙遙領(lǐng)先,而美國(guó)在貝葉斯方法、強(qiáng)化學(xué)習(xí)和人工數(shù)據(jù)生成方面較有優(yōu)勢(shì)。除美國(guó)和中國(guó)外,其他小數(shù)據(jù)研究排名前10位的國(guó)家都是美國(guó)的盟友或合作伙伴,俄羅斯等國(guó)明顯缺席榜單。當(dāng)前學(xué)術(shù)界常用論文引用量經(jīng)衡量研究質(zhì)量和影響。中國(guó)在所有小數(shù)據(jù)類(lèi)別中的按年限調(diào)整引用量排名第二,在貝葉斯方法中的排名降至第七。

圖6顯示的是按國(guó)家細(xì)分的三年增長(zhǎng)預(yù)測(cè)情況。相對(duì)于美國(guó)和世界其他地區(qū),中國(guó)在遷移學(xué)習(xí)方法方面的增長(zhǎng)預(yù)計(jì)會(huì)大幅提升。這一測(cè)如果準(zhǔn)確,意味著中國(guó)會(huì)在遷移學(xué)習(xí)方面發(fā)展得更快更遠(yuǎn)。

圖6. 2023 年美國(guó)、中國(guó)和世界其他地區(qū)(ROW)按類(lèi)別劃分的增長(zhǎng)預(yù)測(cè)

資料來(lái)源:CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù),截至 2021 年 2 月 12 日。

六、資金籌集

研究人員分析了可用于小數(shù)據(jù)方法的資助數(shù)據(jù),以確定研究集群中資助論文實(shí)體類(lèi)型的估量。對(duì)于上述調(diào)研結(jié)果,只有大約 20-30% 的論文的資助信息。

在各個(gè)領(lǐng)域中,在政府、公司、學(xué)術(shù)界和非營(yíng)利組織中,政府人員一般是研究的重要資助者。在全球范圍內(nèi),政府資助在“小數(shù)據(jù)”方法集群中所占的比例遠(yuǎn)高于人工智能整個(gè)領(lǐng)域。如圖7所示,在所有5大類(lèi)別中,與AI研究整體的經(jīng)費(fèi)分解相比,政府資助的份額非常高。非盈利組織在用于小數(shù)據(jù)研究的資金中所占的比例比通常用于人工智能的其余部分要小。貝葉斯方法的資助模式與AI總體上最為相似。

圖7. 與 AI 整體相關(guān)的數(shù)據(jù)方法的資金來(lái)源

資料來(lái)源:CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù),截至 2021 年 2 月 12 日。

圖 8 進(jìn)一步按國(guó)家/地區(qū)細(xì)分了與政府相關(guān)的資金信息。研究結(jié)果表明,政府在小數(shù)據(jù)中投入資金所占比例總體呈上升趨勢(shì),但整體來(lái)看,美國(guó)政府對(duì)小數(shù)據(jù)研究的資金份額低于其在人工智能方面的份額。個(gè)體機(jī)構(gòu)、企業(yè)傾向于為美國(guó)的小數(shù)據(jù)研究提供比整個(gè)Al研究更大的份額。

圖8. 中國(guó)、美國(guó)和世界其他地區(qū)(ROW)對(duì)于人工智能相關(guān)的小數(shù)據(jù)方法的政府資助

資料來(lái)源:CSET 合并學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù),截至 2021 年 2 月 12 日。

七、總結(jié)

a) 人工智能不等于大數(shù)據(jù)。

b) 對(duì)遷移學(xué)習(xí)的研究進(jìn)展飛快,在未來(lái)遷移學(xué)習(xí)會(huì)更有效地被更廣泛應(yīng)用。

c) 美國(guó)和中國(guó)在小數(shù)據(jù)方法方面的競(jìng)爭(zhēng)非常激烈。美國(guó)在強(qiáng)化學(xué)習(xí)和貝葉斯方法這兩個(gè)類(lèi)別中處于優(yōu)勢(shì),而中國(guó)在增長(zhǎng)最快的遷移學(xué)習(xí)類(lèi)別中一馬當(dāng)先,并且將差距在逐漸加大。

d) 目前相對(duì)于整個(gè)人工智能領(lǐng)域的投資模式而言,美國(guó)在小數(shù)據(jù)方法上的投資份額更小,因此遷移學(xué)習(xí)可能是美國(guó)政府加大資金投入的前景目標(biāo)。

 

責(zé)任編輯:張燕妮 來(lái)源: 雷鋒網(wǎng)
相關(guān)推薦

2021-01-11 11:04:53

人工智能AI人工智能技術(shù)

2020-12-14 09:20:52

數(shù)字人民幣貨幣網(wǎng)絡(luò)

2018-08-20 21:05:01

人工智能醫(yī)療診療

2024-04-30 14:39:33

2023-03-11 22:47:13

人工智能首席信息官數(shù)字化

2017-10-11 15:17:59

2019-01-08 10:26:19

人工智能 Python技術(shù)

2023-08-29 11:36:49

2022-07-22 11:09:49

人工智能AIops

2023-07-12 07:15:24

2020-09-17 16:01:09

人工智能技術(shù)數(shù)據(jù)

2016-08-12 00:20:22

大數(shù)據(jù)小數(shù)據(jù)

2021-10-29 22:45:47

大數(shù)據(jù)算法技術(shù)

2021-11-05 09:56:36

人工智能AI指數(shù)

2022-01-14 14:37:02

人工智能語(yǔ)音識(shí)別自然語(yǔ)言

2022-11-06 16:07:56

人工智能數(shù)據(jù)驗(yàn)證工具

2021-03-03 14:04:53

人工智能知識(shí)圖譜

2022-07-07 10:11:37

人工智能物聯(lián)網(wǎng)

2024-02-20 16:42:35

人工智能

2023-12-05 14:46:58

人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)