自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)挖掘云服務(wù)

云計(jì)算
日前中國(guó)通信學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)在京成立。此次會(huì)議上,TechTarget中國(guó)有幸聽(tīng)到中國(guó)科學(xué)院計(jì)算技術(shù)研究所何清研究員的演講。何清表示大數(shù)據(jù)為企業(yè)帶來(lái)了創(chuàng)新機(jī)會(huì)也帶來(lái)了挑戰(zhàn),而關(guān)于數(shù)據(jù)挖掘云服務(wù)更是并不簡(jiǎn)單。

在大數(shù)據(jù)領(lǐng)域存在諸多挑戰(zhàn),比如成本和技術(shù),另外服務(wù)模式也為企業(yè)應(yīng)用大數(shù)據(jù)造成了很大的挑戰(zhàn)。企業(yè)內(nèi)部數(shù)據(jù)集中以后,如何向用戶、企業(yè)的前端和后端提供服務(wù)呢?日前中國(guó)通信學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)在京成立,該組織是由中國(guó)通信學(xué)會(huì)牽頭組建,我國(guó)首個(gè)專門(mén)研究大數(shù)據(jù)應(yīng)用和發(fā)展的學(xué)術(shù)咨詢組織。此次會(huì)議上,TechTarget中國(guó)有幸聽(tīng)到中國(guó)科學(xué)院計(jì)算技術(shù)研究所何清研究員、博士生導(dǎo)師的演講。何清表示大數(shù)據(jù)為企業(yè)帶來(lái)了創(chuàng)新機(jī)會(huì),也帶來(lái)了挑戰(zhàn),而關(guān)于數(shù)據(jù)挖掘云服務(wù)更是并不簡(jiǎn)單。

大數(shù)據(jù)演化

 

[[99574]]

根據(jù)Cisco的預(yù)測(cè),2013年互聯(lián)網(wǎng)的數(shù)據(jù)就要達(dá)到667EB,而在2015年,在智利的巡天望遠(yuǎn)鏡那里也會(huì)產(chǎn)品類似的數(shù)據(jù),到2013年我們生成1.8ZB這樣規(guī)模的數(shù)據(jù)只需要10分鐘。何清表示:“大數(shù)據(jù)規(guī)模的增長(zhǎng)實(shí)際上給我們的技術(shù)創(chuàng)新,給我們的市場(chǎng)競(jìng)爭(zhēng)以及生產(chǎn)活動(dòng)實(shí)際上帶來(lái)了一個(gè)全新的前沿的領(lǐng)域?,F(xiàn)在經(jīng)濟(jì)活動(dòng)的增長(zhǎng)根本就離不開(kāi)數(shù)據(jù),我們的創(chuàng)新活動(dòng),我們的經(jīng)濟(jì)活動(dòng),一刻也離不開(kāi)數(shù)據(jù),離開(kāi)了數(shù)據(jù)不可能產(chǎn)生創(chuàng)新。大數(shù)據(jù)是一個(gè)技術(shù)問(wèn)題,但是實(shí)際上帶來(lái)了更多的商業(yè)機(jī)會(huì)。”

 

大數(shù)據(jù)規(guī)模從定義來(lái)看是一個(gè)不斷演化的指標(biāo),現(xiàn)在指單一數(shù)據(jù)集從數(shù)10TB到10幾個(gè)PB的數(shù)據(jù)規(guī)模。大數(shù)據(jù)有什么樣的特征呢?何清解釋道,現(xiàn)在有三維表述、四維表述,甚至有五維的表述,對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō),實(shí)際上我們所關(guān)注的是大數(shù)據(jù)里面的這種特征,稠密與稀疏是共存的。表現(xiàn)在數(shù)據(jù)在局部可能分布極其稠密,但全局來(lái)看,我們所收集來(lái)的數(shù)據(jù)又是極其稀疏的。冗余和缺失是并存的,數(shù)據(jù)是存在大量的冗余的,但是局部的數(shù)據(jù)又是缺失的。再有一個(gè)特征就是靜態(tài)和動(dòng)態(tài)互現(xiàn),就是多元數(shù)據(jù)的事態(tài)持續(xù)動(dòng)態(tài)演進(jìn)。

在大數(shù)據(jù)上最重要的技術(shù)問(wèn)題是如何理解這么多的數(shù)據(jù)?如何理解這些大數(shù)據(jù)?大數(shù)據(jù)所帶來(lái)的技術(shù)上的挑戰(zhàn)包括描述與存儲(chǔ)的挑戰(zhàn),另外一個(gè)挑戰(zhàn)就是面臨著挖掘與預(yù)測(cè)的挑戰(zhàn)。大數(shù)據(jù)挖掘增加樣本十分容易。但是,數(shù)據(jù)挖掘算法要降低復(fù)雜度非常難。#p#

數(shù)據(jù)挖掘發(fā)展歷程

何清認(rèn)為數(shù)據(jù)挖掘的發(fā)展是以數(shù)據(jù)存儲(chǔ)和管理技術(shù)的發(fā)展為基礎(chǔ)的,每當(dāng)數(shù)據(jù)存儲(chǔ)與管理技術(shù)向前發(fā)展一步,相應(yīng)的數(shù)據(jù)挖掘技術(shù)、系統(tǒng)和平臺(tái)也就會(huì)得到相應(yīng)的升級(jí)。最初的傳統(tǒng)式、卡片式的數(shù)據(jù)存儲(chǔ)是不可能實(shí)現(xiàn)大數(shù)據(jù)挖掘的,也不可能用于大數(shù)據(jù)存儲(chǔ)?,F(xiàn)在,HBASE和HDFS這兩種方式為大數(shù)據(jù)的存儲(chǔ)提供了基礎(chǔ)。在這個(gè)基礎(chǔ)上,為大數(shù)據(jù)的挖掘奠定了基礎(chǔ)。關(guān)于大數(shù)據(jù)管理方面有很多具體的要求,最主要的是大數(shù)據(jù)的容量問(wèn)題、數(shù)據(jù)存儲(chǔ)與管理。大數(shù)據(jù)管理格式多樣,速度規(guī)模復(fù)雜性超出傳統(tǒng)的數(shù)據(jù)管理技術(shù)的要求。這時(shí)候,甚至也需要內(nèi)存的數(shù)據(jù)管理。

在大數(shù)據(jù)管理基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘,需要使用MapReduce技術(shù)。何清表示:“未來(lái)我們的數(shù)據(jù)挖掘不可能在單一的數(shù)據(jù)倉(cāng)庫(kù)上來(lái)做,可能要按需整合多個(gè)原信息的邏輯數(shù)據(jù)倉(cāng)庫(kù),代替單一數(shù)據(jù)倉(cāng)庫(kù)的模式。數(shù)據(jù)挖掘技術(shù)的發(fā)展從第一代的獨(dú)立算法,獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù),現(xiàn)在實(shí)際上已經(jīng)發(fā)展成了基于云計(jì)算的并行數(shù)據(jù)挖掘與服務(wù)。在這個(gè)時(shí)候,同一個(gè)算法分布在多個(gè)節(jié)點(diǎn)上并行運(yùn)行,多個(gè)算法之間也可以并行來(lái)執(zhí)行。計(jì)算資源按照虛擬化技術(shù)是按需分配的,其數(shù)據(jù)管理已經(jīng)是NoSQL的這些方式,HDFS、HBASE等等。”

大數(shù)據(jù)挖掘算法需要什么樣的算法呢?根據(jù)何清所述,包含了傳統(tǒng)的關(guān)聯(lián)分析、矩陣分析、異常分析、演變分析等等。大數(shù)據(jù)管理主要取決于數(shù)據(jù)的容量,但是大數(shù)據(jù)挖掘受到算法的復(fù)雜度、并行度以及數(shù)據(jù)存儲(chǔ)速度的制約。大數(shù)據(jù)挖掘我們要求能夠處理高維、多模態(tài)、多類的大數(shù)據(jù)。

大數(shù)據(jù)挖掘云服務(wù)

目前大數(shù)據(jù)挖掘面臨諸多方面的挑戰(zhàn)。在算法上要結(jié)合不同的分布式計(jì)算環(huán)境;系統(tǒng)性能方面要考慮減少同步與分布的開(kāi)銷;而從實(shí)現(xiàn)方式來(lái)看,并行數(shù)據(jù)挖掘各節(jié)點(diǎn)間是采用高速網(wǎng)絡(luò)來(lái)連接的,而分布式一般是廣域網(wǎng)。何清解釋道,大數(shù)據(jù)挖掘要尋求的是具有分布式和并行兩種特征兼具的計(jì)算環(huán)境,而云計(jì)算就提供了這種方式。云計(jì)算模式提供的首先是存儲(chǔ),比如說(shuō)以Hadoop為例,它實(shí)際上是在大型集群上,能夠可靠的存儲(chǔ)大數(shù)據(jù)的數(shù)億級(jí)的文件系統(tǒng),容錯(cuò)性比較好。由于采用了虛擬化技術(shù),因此簡(jiǎn)化了要把計(jì)算資源的分配交給編程者的方法

數(shù)據(jù)挖掘云服務(wù)也存在諸多要求。服務(wù)要保證可用性、可靠性還有高性能。在這是隱私是安全的,不允許未授權(quán)的訪問(wèn),也不允許其他人能夠?qū)λ诰虻臄?shù)據(jù)能夠理解。“除了挖掘者本人以外,或者是本公司以外,其他的即使看到數(shù)據(jù),也對(duì)他的數(shù)據(jù)不可理解,要做到這樣。我們實(shí)現(xiàn)的途徑按行業(yè)來(lái)做這個(gè)數(shù)據(jù)挖掘,云服務(wù)的平臺(tái)。專業(yè)的數(shù)據(jù)挖掘人士就是提供數(shù)據(jù)挖掘算法服務(wù),大眾和各種組織就成為服務(wù)的受益方。我們?cè)谶@個(gè)實(shí)現(xiàn)過(guò)程當(dāng)中,肯定離不開(kāi)虛擬化的技術(shù),我們要做到可信和安全,”何清如是說(shuō)道。

何清為我們介紹了PDMiner體系結(jié)構(gòu),這是一個(gè)集成各種并行算法的數(shù)據(jù)挖掘工具平臺(tái),其中的并行計(jì)算模式不僅包括算法之間的并行,而且包括算法內(nèi)部的并行、接口系統(tǒng)和工作流子系統(tǒng)。這個(gè)系統(tǒng)做到了并行,而且提供了一系列靈活的算法組件。相對(duì)來(lái)說(shuō),它的容錯(cuò)性、開(kāi)放性、可控、可移動(dòng)都是很好的。在這個(gè)基礎(chǔ)之上開(kāi)發(fā)了COMS,實(shí)際上是數(shù)據(jù)挖掘后臺(tái),開(kāi)發(fā)出前臺(tái)的云服務(wù)界面。用戶通過(guò)互聯(lián)網(wǎng)就可以去定制數(shù)據(jù)挖掘任務(wù),可以上載和加密數(shù)據(jù),來(lái)做到數(shù)據(jù)挖掘。

最后,何清說(shuō)道:“我們大數(shù)據(jù)挖掘要注意兩點(diǎn),首先是要選擇復(fù)雜度低的算法,就是說(shuō)N方的是很難想像的處理大數(shù)據(jù)的。我們盡量要把全局最優(yōu)的問(wèn)題轉(zhuǎn)化為局部最優(yōu)的問(wèn)題,盡量的使用低階的多項(xiàng)式復(fù)雜度算法。我們要使用高效并行的策略,盡量避免使用全局信息。”

專家簡(jiǎn)介:何清,中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員,博士生導(dǎo)師,2008年底開(kāi)發(fā)完成了我國(guó)最早的基于云計(jì)算的并行數(shù)據(jù)挖掘平臺(tái),用于TB級(jí)實(shí)際數(shù)據(jù)的挖掘,實(shí)現(xiàn)了高性能、低成本的數(shù)據(jù)挖掘,先后主持完成多個(gè)有關(guān)數(shù)據(jù)挖掘的國(guó)家自然科學(xué)基金項(xiàng)目和863項(xiàng)目,提出了一系列有效的數(shù)據(jù)挖掘算法,組織開(kāi)發(fā)的多個(gè)數(shù)據(jù)挖掘軟件獲得了軟件著作權(quán),并實(shí)際應(yīng)用到電信、國(guó)家電網(wǎng)、信息安全、環(huán)保等多個(gè)行業(yè),為企業(yè)帶來(lái)了可觀的經(jīng)濟(jì)效益和社會(huì)效益。

責(zé)任編輯:王程程 來(lái)源: TechTarget中國(guó)
相關(guān)推薦

2018-09-21 10:53:26

2016-11-08 13:11:46

大數(shù)據(jù)數(shù)據(jù)挖掘

2022-10-12 14:39:14

大數(shù)據(jù)數(shù)字經(jīng)濟(jì)集群

2016-11-07 19:57:33

大數(shù)據(jù)共享數(shù)據(jù)

2017-11-28 17:41:39

大數(shù)據(jù)

2013-05-21 09:47:55

2015-08-13 10:56:47

數(shù)據(jù)挖掘

2016-12-01 17:12:36

2018-12-07 14:59:37

2013-07-03 16:30:14

2023-04-24 21:17:54

大數(shù)據(jù)數(shù)據(jù)挖掘

2014-08-06 09:00:55

2019-04-09 20:55:30

2013-10-21 10:54:05

微軟大數(shù)據(jù)SQL Server

2018-09-07 18:25:47

2015-01-13 16:26:05

大數(shù)據(jù)Informatica

2014-03-14 09:52:15

非結(jié)構(gòu)化數(shù)據(jù)

2015-08-20 13:39:49

云服務(wù)大數(shù)據(jù)

2015-05-06 15:41:22

大數(shù)據(jù)服務(wù)HDFS云計(jì)算

2016-11-08 16:45:59

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)