自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何使大數(shù)據(jù)易于管理

大數(shù)據(jù)
麻省理工學(xué)院Andrew and Erna Viterbi電氣工程與計(jì)算機(jī)科學(xué)院的教授、人工智能實(shí)驗(yàn)室(CSAIL)的主任Daniela Rus、博士后Mikhail Volkov和曾在Rus科研小組的博士后、以色列海法大學(xué)機(jī)器人大數(shù)據(jù)實(shí)驗(yàn)室主任Dan Feldman針對(duì)這個(gè)問(wèn)題,提出了一個(gè)解決方案,將大數(shù)據(jù)變成可管理的數(shù)據(jù)。小編整理并分享出來(lái),以饗讀者。

現(xiàn)在的社會(huì)是一個(gè)高速發(fā)展的社會(huì),科技發(fā)達(dá),信息流通,人們之間的交流越來(lái)越密切,生活也越來(lái)越方便,大數(shù)據(jù)就是這個(gè)高科技時(shí)代的產(chǎn)物。

有人把數(shù)據(jù)比喻為蘊(yùn)藏能量的煤礦。煤炭按照性質(zhì)有焦煤、無(wú)煙煤、肥煤、貧煤等分類(lèi),而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類(lèi)似,大數(shù)據(jù)并不在“大”,而在于“有用”。價(jià)值含量、挖掘成本比數(shù)量更為重要。對(duì)于很多行業(yè)而言,如何利用這些大規(guī)模數(shù)據(jù)是贏得競(jìng)爭(zhēng)的關(guān)鍵。

[[181207]]

大數(shù)據(jù)分析的困境

不過(guò),“大數(shù)據(jù)”在經(jīng)濟(jì)發(fā)展中的巨大意義并不代表其能取代一切對(duì)于社會(huì)問(wèn)題的理性思考,科學(xué)發(fā)展的邏輯不能被湮沒(méi)在海量數(shù)據(jù)中。著名經(jīng)濟(jì)學(xué)家路德維希·馮·米塞斯曾提醒過(guò):“就今日言,有很多人忙碌于資料之無(wú)益累積,以致對(duì)問(wèn)題之說(shuō)明與解決,喪失了其對(duì)特殊的經(jīng)濟(jì)意義的了解。”這確實(shí)是需要警惕的。

然而,分析大數(shù)據(jù)集可能會(huì)產(chǎn)生問(wèn)題。首先,大數(shù)據(jù)是大規(guī)模的,有時(shí)太大,不能通過(guò)常用的分析工具有效地處理。

麻省理工學(xué)院Andrew and Erna Viterbi電氣工程與計(jì)算機(jī)科學(xué)院的教授、人工智能實(shí)驗(yàn)室(CSAIL)的主任Daniela Rus、博士后Mikhail Volkov和曾在Rus科研小組的博士后、以色列海法大學(xué)機(jī)器人大數(shù)據(jù)實(shí)驗(yàn)室主任Dan Feldman針對(duì)這個(gè)問(wèn)題,提出了一個(gè)解決方案,將大數(shù)據(jù)變成可管理的數(shù)據(jù)。小編整理并分享出來(lái),以饗讀者。

大數(shù)據(jù)困境破解之道

處理大數(shù)據(jù)的一種方法是縮減它。如果您可以確定大數(shù)據(jù)的一個(gè)子集,用于保留大數(shù)據(jù)最重要的數(shù)學(xué)關(guān)系,那么就可以進(jìn)行有用的分析,不然對(duì)整個(gè)大數(shù)據(jù)集來(lái)說(shuō)將是非常耗時(shí),不實(shí)用。

然而,用于提取這樣的“核心集”的方法根據(jù)應(yīng)用程序而有所不同。研究人員提出了一種提取可由大量常用數(shù)據(jù)分析工具使用的核心集的新技術(shù),適合自然語(yǔ)言處理、推薦系統(tǒng)、天氣預(yù)報(bào)、金融和神經(jīng)科學(xué)等。

“這些都是在許多應(yīng)用程序中使用的非常通用的算法,”Danilla Rus表示,“它們是這么多問(wèn)題的基礎(chǔ)。通過(guò)為這些工具確定出一個(gè)巨大矩陣的核心集,人們就可以進(jìn)行以前根本不可能的計(jì)算。”

例如,在他們的論文中,研究人員將他們的技術(shù)應(yīng)用于矩陣(也就是表格),它將英語(yǔ)版維基百科上的每篇文章映射到網(wǎng)站上出現(xiàn)的每一個(gè)單詞。這個(gè)矩陣,將有140萬(wàn)篇文章和440萬(wàn)列的單詞。

維基百科的這個(gè)矩陣實(shí)在太大了,以至于不能使用低秩近似來(lái)進(jìn)行分析,該算法可以識(shí)別自由格式文本的主題。但是一旦提取出來(lái)核心集,研究人員就能夠使用低秩近似來(lái)提取維基百科上最常見(jiàn)的100個(gè)主題的單詞集群。例如,包含“服裝”、“新娘”、“伴娘”和“婚禮”的集群表示婚禮的主題;包含“槍”、“開(kāi)槍”、“卡住”、“手槍”和“槍擊”的集群顯示指定了槍擊事件的主題。

讓大數(shù)據(jù)可管理的思路

研究人員的核心集新技術(shù)對(duì)于一系列工具非常有用,如奇異值分解、主成分分析、潛在語(yǔ)義分析。但它們共同之處是縮減:它們采用具有大量的變量數(shù)據(jù)集,并且用更少的變量找到它們的近似值。

在這里,這些工具的作用與核心集類(lèi)似。但是,核心集是特定應(yīng)用程序,而dimension-reduction工具是通用的。這種共性使它們的密集型計(jì)算比核心集更多:對(duì)于大型數(shù)據(jù)集的實(shí)際應(yīng)用來(lái)說(shuō)計(jì)算量過(guò)于龐大。

研究人員認(rèn)為,他們的技術(shù)可以用于用例如從數(shù)百萬(wàn)變量中嗅出數(shù)據(jù)集:例如根據(jù)他們使用的詞語(yǔ)對(duì)維基百科頁(yè)面的描述——只有幾千個(gè)單詞。在這一點(diǎn)上,諸如廣泛使用的主成分分析技術(shù)可以將變量的數(shù)量減少到幾百個(gè),甚至更少。

維基百科矩陣有440萬(wàn)列,每列代表一個(gè)不同的單詞。維基百科上的任何文章只會(huì)使用幾千個(gè)不同的單詞。所以在任何給定的行:這意味著在任何一篇文章,只有幾千個(gè)矩陣插槽中的440萬(wàn)將會(huì)有內(nèi)容。在稀疏矩陣中,大多數(shù)值為零。

至關(guān)重要的是,這項(xiàng)新技術(shù)保留了稀疏性,這使得它的核心集更容易進(jìn)行計(jì)算處理。如果它們涉及零的大量乘法和加法,計(jì)算將會(huì)變得更容易。

新的核心集技術(shù)使用所謂的合并和歸約過(guò)程,它開(kāi)始取數(shù)據(jù)集中的20個(gè)數(shù)據(jù)點(diǎn),并選擇其中10個(gè)作為滿20個(gè)數(shù)據(jù)點(diǎn)的最具代表性的點(diǎn)。然后它對(duì)另外20個(gè)數(shù)據(jù)點(diǎn)執(zhí)行相同的過(guò)程,合并這兩個(gè)所減少的10個(gè)數(shù)據(jù)點(diǎn),形成新的20個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集,然后它進(jìn)行另一個(gè)縮減的過(guò)程,從20個(gè)下降到10個(gè)。

即使該過(guò)程檢查巨大數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn),因?yàn)樗看沃惶幚頂?shù)據(jù)點(diǎn)的小集合,它仍然保持了很高的計(jì)算效率。在他們的論文中,研究人員證明,對(duì)于涉及一系列通用縮減工具的應(yīng)用,他們提供的縮減方法提供了對(duì)完整數(shù)據(jù)集非常好的近似結(jié)果。

該方法取決于數(shù)據(jù)的幾何解釋?zhuān)婕胺Q(chēng)為超球面的概念,它是圓的多維模擬。任何一個(gè)多變量數(shù)據(jù)可以看做是多維空間中的一個(gè)點(diǎn)。以同樣的方式,數(shù)字對(duì)(1,1)定義二維空間中的點(diǎn):在X軸上的點(diǎn)和Y軸上的點(diǎn)——就是維基百科表中的一行,其440萬(wàn)個(gè)數(shù)字,定義了一個(gè)440萬(wàn)個(gè)圓的空間上每一個(gè)點(diǎn)。

研究人員的縮減算法從找到數(shù)據(jù)點(diǎn)子集的平均值開(kāi)始——比如說(shuō)20個(gè),那就要進(jìn)行縮減。這也定義了高維空間中的點(diǎn),稱(chēng)之為初始點(diǎn)。然后將20個(gè)數(shù)據(jù)點(diǎn)中的每一個(gè)“投影”到以初始點(diǎn)為中心的超球面上。也就是說(shuō),算法在數(shù)據(jù)點(diǎn)方向上找到超球面上的唯一點(diǎn)。

該算法選擇超球面上的20個(gè)數(shù)據(jù)投影之一。然后選擇最遠(yuǎn)離第一個(gè)的超球面上的投影。它找到兩者之間的中點(diǎn),然后選擇距離中點(diǎn)最遠(yuǎn)的數(shù)據(jù)投影;然后它再找到這兩點(diǎn)之間的中點(diǎn),并選擇距離它最遠(yuǎn)的數(shù)據(jù)投影;如此循環(huán)。

研究人員能夠證明通過(guò)這種方法選擇的中點(diǎn)將非??斓厥諗吭诔蛎娴闹行?。該方法將快速選擇其平均值接近20個(gè)初始點(diǎn)的點(diǎn)的子集。這使得它們特別合適核心集中的候選者。

責(zé)任編輯:未麗燕 來(lái)源: 網(wǎng)絡(luò)大數(shù)據(jù)
相關(guān)推薦

2013-05-27 09:59:55

2013-01-28 11:43:06

2013-05-27 10:55:17

2018-06-05 10:47:37

數(shù)據(jù)可視化數(shù)據(jù)分析

2020-05-25 10:14:09

DevopsITSM首席信息官

2013-11-26 09:28:01

2017-11-01 14:29:38

2012-05-15 14:03:46

Dell Power

2009-07-14 21:41:10

數(shù)據(jù)中心計(jì)算機(jī)系統(tǒng)

2019-08-05 09:39:05

2021-06-07 17:10:07

區(qū)塊鏈出入口控制物聯(lián)網(wǎng)

2017-12-01 08:44:36

機(jī)器學(xué)習(xí)大數(shù)據(jù)管理

2023-10-04 17:44:27

系統(tǒng)設(shè)計(jì)目標(biāo)

2013-10-21 09:38:15

大數(shù)據(jù)

2011-07-07 15:45:45

iPhone SQLite 數(shù)據(jù)

2017-06-15 17:44:25

環(huán)衛(wèi)保潔大數(shù)據(jù)

2022-08-14 14:52:45

數(shù)據(jù)存儲(chǔ)實(shí)踐

2020-09-17 11:59:29

大數(shù)據(jù)

2015-10-28 10:55:36

2017-11-14 08:27:32

云中數(shù)據(jù)存儲(chǔ)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)