自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)技術(shù)創(chuàng)新呈現(xiàn)“原創(chuàng)-開(kāi)源-產(chǎn)品化”的階梯格局

數(shù)據(jù)庫(kù)
大數(shù)據(jù)來(lái)源于互聯(lián)網(wǎng)、企業(yè)系統(tǒng)和物聯(lián)網(wǎng)等信息系統(tǒng),經(jīng)過(guò)大數(shù)據(jù)處理系統(tǒng)的分析挖掘,產(chǎn)生新的知識(shí)用以支撐決策或業(yè)務(wù)的自動(dòng)智能化運(yùn)轉(zhuǎn)。從數(shù)據(jù)在信息系統(tǒng)中的生命周期看,大數(shù)據(jù)從數(shù)據(jù)源經(jīng)過(guò)分析挖掘到最終獲得價(jià)值一般需要經(jīng)過(guò) 5 個(gè)主要環(huán)節(jié),包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)存儲(chǔ)與管理、計(jì)算處理、數(shù)據(jù)分析和知識(shí)展現(xiàn),技術(shù)體系如圖 1所示。每個(gè)環(huán)節(jié)都面臨不同程度的技術(shù)上的挑戰(zhàn)。

 (一) 大數(shù)據(jù)對(duì)傳統(tǒng)數(shù)據(jù)處理技術(shù)體系提出挑戰(zhàn)

大數(shù)據(jù)來(lái)源于互聯(lián)網(wǎng)、企業(yè)系統(tǒng)和物聯(lián)網(wǎng)等信息系統(tǒng),經(jīng)過(guò)大數(shù)據(jù)處理系統(tǒng)的分析挖掘,產(chǎn)生新的知識(shí)用以支撐決策或業(yè)務(wù)的自動(dòng)智能化運(yùn)轉(zhuǎn)。從數(shù)據(jù)在信息系統(tǒng)中的生命周期看,大數(shù)據(jù)從數(shù)據(jù)源經(jīng)過(guò)分析挖掘到最終獲得價(jià)值一般需要經(jīng)過(guò) 5 個(gè)主要環(huán)節(jié),包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)存儲(chǔ)與管理、計(jì)算處理、數(shù)據(jù)分析和知識(shí)展現(xiàn),技術(shù)體系如圖 1所示。每個(gè)環(huán)節(jié)都面臨不同程度的技術(shù)上的挑戰(zhàn)。

數(shù)據(jù)準(zhǔn)備環(huán)節(jié):在進(jìn)行存儲(chǔ)和處理之前,需要對(duì)數(shù)據(jù)進(jìn)行清洗、整理,傳統(tǒng)數(shù)據(jù)處理體系中稱(chēng)為 ETL ( Extracting ,Transforming,Loading)過(guò)程。與以往數(shù)據(jù)分析相比,大數(shù)據(jù)的來(lái)源多種多樣,包括企業(yè)內(nèi)部數(shù)據(jù)庫(kù)、互聯(lián)網(wǎng)數(shù)據(jù)和物聯(lián)網(wǎng)數(shù)據(jù),不僅數(shù)量龐大、格式不一,質(zhì)量也良莠不齊。這就要求數(shù)據(jù)準(zhǔn)備環(huán)節(jié)一方面要規(guī)范格式,便于后續(xù)存儲(chǔ)管理,另一方面要在盡可能保留原有語(yǔ)義的情況下去粗取精、消除噪聲。

數(shù)據(jù)存儲(chǔ)與管理環(huán)節(jié):當(dāng)前全球數(shù)據(jù)量正以每年超過(guò) 50%的速度增長(zhǎng),存儲(chǔ)技術(shù)的成本和性能面臨非常大的壓力。大數(shù)據(jù)存儲(chǔ)系統(tǒng)不僅需要以極低的成本存儲(chǔ)海量數(shù)據(jù),還要適應(yīng)多樣化的非結(jié)構(gòu)化數(shù)據(jù)管理需求,具備數(shù)據(jù)格式上的可擴(kuò)展性。

計(jì)算處理環(huán)節(jié):需要根據(jù)處理的數(shù)據(jù)類(lèi)型和分析目標(biāo),采用適當(dāng)?shù)乃惴P?,快速處理?shù)據(jù)。海量數(shù)據(jù)處理要消耗大量的計(jì)算資源,對(duì)于傳統(tǒng)單機(jī)或并行計(jì)算技術(shù)來(lái)說(shuō),速度、可擴(kuò)展性和成本上都難以適應(yīng)大數(shù)據(jù)計(jì)算分析的新需求。分而治之的分布式計(jì)算成為大數(shù)據(jù)的主流計(jì)算架構(gòu),但在一些特定場(chǎng)景下的實(shí)時(shí)性還需要大幅提升。

數(shù)據(jù)分析環(huán)節(jié):數(shù)據(jù)分析環(huán)節(jié)需要從紛繁復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律提取新的知識(shí),是大數(shù)據(jù)價(jià)值挖掘的關(guān)鍵。傳統(tǒng)數(shù)據(jù)挖掘?qū)ο蠖嗍墙Y(jié)構(gòu)化、單一對(duì)象的小數(shù)據(jù)集,挖掘更側(cè)重根據(jù)先驗(yàn)知識(shí)預(yù)先人工建立模型,然后依據(jù)既定模型進(jìn)行分析。對(duì)于非結(jié)構(gòu)化、多源異構(gòu)的大數(shù)據(jù)集的分析,往往缺乏先驗(yàn)知識(shí),很難建立顯式的數(shù)學(xué)模型,這就需要發(fā)展更加智能的數(shù)據(jù)挖掘技術(shù)。

知識(shí)展現(xiàn)環(huán)節(jié):在大數(shù)據(jù)服務(wù)于決策支撐場(chǎng)景下,以直觀的方式將分析結(jié)果呈現(xiàn)給用戶(hù),是大數(shù)據(jù)分析的重要環(huán)節(jié)。如何讓復(fù)雜的分析結(jié)果易于理解是主要挑戰(zhàn)。在嵌入多業(yè)務(wù)中的閉環(huán)大數(shù)據(jù)應(yīng)用中,一般是由機(jī)器根據(jù)算法直接應(yīng)用分析結(jié)果而無(wú)需人工干預(yù),這種場(chǎng)景下知識(shí)展現(xiàn)環(huán)節(jié)則不是必需的。

大數(shù)據(jù)技術(shù)

總的來(lái)看,大數(shù)據(jù)對(duì)數(shù)據(jù)準(zhǔn)備環(huán)節(jié)和知識(shí)展現(xiàn)環(huán)節(jié)來(lái)說(shuō)只是量的變化,并不需要根本性的變革。但大數(shù)據(jù)對(duì)數(shù)據(jù)分析、計(jì)算和存儲(chǔ)三個(gè)環(huán)節(jié)影響較大,需要對(duì)技術(shù)架構(gòu)和算法進(jìn)行重構(gòu),是當(dāng)前和未來(lái)一段時(shí)間大數(shù)據(jù)技術(shù)創(chuàng)新的焦點(diǎn)。下面簡(jiǎn)要分析上述 3 個(gè)環(huán)節(jié)面臨的挑戰(zhàn)及發(fā)展趨勢(shì)。

(二) 大數(shù)據(jù)存儲(chǔ)、計(jì)算和分析技術(shù)是關(guān)鍵

1.大數(shù)據(jù)存儲(chǔ)管理技術(shù)

數(shù)據(jù)的海量化和快增長(zhǎng)特征是大數(shù)據(jù)對(duì)存儲(chǔ)技術(shù)提出的首要挑戰(zhàn)。這要求底層硬件架構(gòu)和文件系統(tǒng)在性?xún)r(jià)比上要大大高于傳統(tǒng)技術(shù),并能夠彈性擴(kuò)展存儲(chǔ)容量。但以往網(wǎng)絡(luò)附著存儲(chǔ)系統(tǒng)(NAS)和存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)等體系,存儲(chǔ)和計(jì)算的物理設(shè)備分離,它們之間要通過(guò)網(wǎng)絡(luò)接口連接,這導(dǎo)致在進(jìn)行數(shù)據(jù)密集型計(jì)算(Data Intensive Computing)時(shí) I/O 容易成為瓶頸。同時(shí),傳統(tǒng)的單機(jī)文件系統(tǒng)(如NTFS)和網(wǎng)絡(luò)文件系統(tǒng)(如 NFS)要求一個(gè)文件系統(tǒng)的數(shù)據(jù)必須存儲(chǔ)在一臺(tái)物理機(jī)器上,且不提供數(shù)據(jù)冗余性,可擴(kuò)展性、容錯(cuò)能力和并發(fā)讀寫(xiě)能力難以滿(mǎn)足大數(shù)據(jù)需求。

谷歌文件系統(tǒng)(GFS)和 Hadoop 的分布式文件系統(tǒng) HDFS(Hadoop Distributed File System)奠定了大數(shù)據(jù)存儲(chǔ)技術(shù)的基礎(chǔ)。與傳統(tǒng)系統(tǒng)相比,GFS/HDFS 將計(jì)算和存儲(chǔ)節(jié)點(diǎn)在物理上結(jié)合在一起,從而避免在數(shù)據(jù)密集計(jì)算中易形成的 I/O 吞吐量的制約,同時(shí)這類(lèi)分布式存儲(chǔ)系統(tǒng)的文件系統(tǒng)也采用了分布式架構(gòu),能達(dá)到較高的并發(fā)訪(fǎng)問(wèn)能力。存儲(chǔ)架構(gòu)的變化如圖 2 所示。

當(dāng)前隨著應(yīng)用范圍不斷擴(kuò)展,GFS 和 HDFS 也面臨瓶頸。雖然 GFS和 HDFS 在大文件的追加(Append)寫(xiě)入和讀取時(shí)能夠獲得很高的性能,但隨機(jī)訪(fǎng)問(wèn)(random access)、海量小文件的頻繁寫(xiě)入性能較低,因此其適用范圍受限。業(yè)界當(dāng)前和下一步的研究重點(diǎn)主要是在硬件上基于 SSD 等新型存儲(chǔ)介質(zhì)的存儲(chǔ)體系架構(gòu),同時(shí)對(duì)現(xiàn)有分布式存儲(chǔ)的文件系統(tǒng)進(jìn)行改進(jìn),以提高隨機(jī)訪(fǎng)問(wèn)、海量小文件存取等性能。

大數(shù)據(jù)技術(shù)

大數(shù)據(jù)對(duì)存儲(chǔ)技術(shù)提出的另一個(gè)挑戰(zhàn)是多種數(shù)據(jù)格式的適應(yīng)能力。格式多樣化是大數(shù)據(jù)的主要特征之一,這就要求大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)能夠適應(yīng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效管理的需求。數(shù)據(jù)庫(kù)的一致性(Consistency)、可用性(Availability)和分區(qū)容錯(cuò)性(Partition-Tolerance)不可能都達(dá)到最佳,在設(shè)計(jì)存儲(chǔ)系統(tǒng)時(shí),需要在 C、A、P 三者之間做出權(quán)衡。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)以支持事務(wù)處理為主,采用了結(jié)構(gòu)化數(shù)據(jù)表的管理方式,為滿(mǎn)足強(qiáng)一致性(C)要求而犧牲了可用性(A)。

為大數(shù)據(jù)設(shè)計(jì)的新型數(shù)據(jù)管理技術(shù),如谷歌 BigTable 和 Hadoop HBase 等非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL,Not only SQL),通過(guò)使用“鍵-值(Key-Value)”對(duì)、文件等非二維表的結(jié)構(gòu),具有很好的包容性,適應(yīng)了非結(jié)構(gòu)化數(shù)據(jù)多樣化的特點(diǎn)。同時(shí),這類(lèi) NoSQL 數(shù)據(jù)庫(kù)主要面向分析型業(yè)務(wù),一致性要求可以降低,只要保證最終一致性即可,給并發(fā)性能的提升讓出了空間。谷歌公司在 2012 年披露的 Spanner 數(shù)據(jù)庫(kù),通過(guò)原子鐘實(shí)現(xiàn)全局精確時(shí)鐘同步,可在全球任意位置部署,系統(tǒng)規(guī)模可達(dá)到 100 萬(wàn)~1000 萬(wàn)臺(tái)機(jī)器。Spanner 能夠提供較強(qiáng)的一致性,還支持 SQL 接口,代表了數(shù)據(jù)管理技術(shù)的新方向。整體來(lái)看,未來(lái)大數(shù)據(jù)的存儲(chǔ)管理技術(shù)將進(jìn)一步把關(guān)系型數(shù)據(jù)庫(kù)的操作便捷性特點(diǎn)和非關(guān)系型數(shù)據(jù)庫(kù)靈活性的特點(diǎn)結(jié)合起來(lái),研發(fā)新的融合型存儲(chǔ)管理技術(shù)。

2.大數(shù)據(jù)并行計(jì)算技術(shù)

大數(shù)據(jù)的分析挖掘是數(shù)據(jù)密集型計(jì)算,需要巨大的計(jì)算能力。與傳統(tǒng)“數(shù)據(jù)簡(jiǎn)單、算法復(fù)雜”的高性能計(jì)算不同,大數(shù)據(jù)的計(jì)算是數(shù)據(jù)密集型計(jì)算,對(duì)計(jì)算單元和存儲(chǔ)單元間的數(shù)據(jù)吞吐率要求極高,對(duì)性?xún)r(jià)比和擴(kuò)展性的要求也非常高。傳統(tǒng)依賴(lài)大型機(jī)和小型機(jī)的并行計(jì)算系統(tǒng)不僅成本高,數(shù)據(jù)吞吐量也難以滿(mǎn)足大數(shù)據(jù)要求,同時(shí)靠提升單機(jī) CPU 性能、增加內(nèi)存、擴(kuò)展磁盤(pán)等實(shí)現(xiàn)性能提升的縱向擴(kuò)展(Scale Up)的方式也難以支撐平滑擴(kuò)容。

大數(shù)據(jù)技術(shù)

谷歌在 2004 年公開(kāi)的 MapReduce 分布式并行計(jì)算技術(shù),是新型分布式計(jì)算技術(shù)的代表。一個(gè) MapReduce 系統(tǒng)由廉價(jià)的通用服務(wù)器構(gòu)成,通過(guò)添加服務(wù)器節(jié)點(diǎn)可線(xiàn)性擴(kuò)展系統(tǒng)的總處理能力(Scale Out),在成本和可擴(kuò)展性上都有巨大的優(yōu)勢(shì)。谷歌的 MapReduce 是其內(nèi)部網(wǎng)頁(yè)索引、廣告等核心系統(tǒng)的基礎(chǔ)。之后出現(xiàn)的開(kāi)源實(shí)現(xiàn) Apache Hadoop MapReduce 是谷歌 MapReduce 的開(kāi)源實(shí)現(xiàn),目前已經(jīng)成為目前應(yīng)用最廣泛的大數(shù)據(jù)計(jì)算軟件平臺(tái)。

MapReduce 架構(gòu)能夠滿(mǎn)足“先存儲(chǔ)后處理”的離線(xiàn)批量計(jì)算(batch processing)需求,但也存在局限性,最大的問(wèn)題是時(shí)延過(guò)大,難以適用于機(jī)器學(xué)習(xí)迭代、流處理等實(shí)時(shí)計(jì)算任務(wù),也不適合針對(duì)大規(guī)模圖數(shù)據(jù)等特定數(shù)據(jù)結(jié)構(gòu)的快速運(yùn)算。

為此,業(yè)界在 MapReduce 基礎(chǔ)上,提出了多種不同的并行計(jì)算技術(shù)路線(xiàn),如圖 3 所示。如 Yahoo 提出的 S4 系統(tǒng)、Twitter 的 Storm系統(tǒng)是針對(duì)“邊到達(dá)邊計(jì)算”的實(shí)時(shí)流計(jì)算(Real time streaming process)框架,可在一個(gè)時(shí)間窗口上對(duì)數(shù)據(jù)流進(jìn)行在線(xiàn)實(shí)時(shí)分析,已經(jīng)在實(shí)時(shí)廣告、微博等系統(tǒng)中得到應(yīng)用。谷歌 2010 年公布的 Dremel系統(tǒng),是一種交互分析(Interactive Analysis)引擎,幾秒鐘就可完成 PB(1PB=1015B)級(jí)數(shù)據(jù)查詢(xún)操作。此外,還出現(xiàn)了將 MapReduce內(nèi)存化以提高實(shí)時(shí)性的 Spark 框架、針對(duì)大規(guī)模圖數(shù)據(jù)進(jìn)行了優(yōu)化的Pregel 系統(tǒng)等等。

大數(shù)據(jù)技術(shù)

針對(duì)不同計(jì)算場(chǎng)景建立和維護(hù)不同計(jì)算平臺(tái)的做法,硬件資源難以復(fù)用,管理運(yùn)維也很不方便,研發(fā)適合多種計(jì)算模型的通用架構(gòu)成為業(yè)界的普遍訴求。為此,Apache Hadoop 社區(qū)在 2013 年 10 月發(fā)布的 Hadoop 2.0 中推出了新一代的 MapReduce 架構(gòu)。新架構(gòu)的主要變化是將舊版本 MapReduce 中的任務(wù)調(diào)度和資源管理功能分離,形成一層與任務(wù)無(wú)關(guān)的資源管理層(YARN)。如圖 4 所示,YARN 對(duì)下負(fù)責(zé)物理資源的統(tǒng)一管理,對(duì)上可支持批處理、流處理、圖計(jì)算等不同模型,為統(tǒng)一大數(shù)據(jù)平臺(tái)的建立提供了新平臺(tái)?;谛碌慕y(tǒng)一資源管理層開(kāi)發(fā)適應(yīng)特定應(yīng)用的計(jì)算模型,仍將是未來(lái)大數(shù)據(jù)計(jì)算技術(shù)發(fā)展的重點(diǎn)。

3.大數(shù)據(jù)分析技術(shù)

在人類(lèi)全部數(shù)字化數(shù)據(jù)中,僅有非常小的一部分(約占總數(shù)據(jù)量的 1%)數(shù)值型數(shù)據(jù)得到了深入分析和挖掘(如回歸、分類(lèi)、聚類(lèi)),大型互聯(lián)網(wǎng)企業(yè)對(duì)網(wǎng)頁(yè)索引、社交數(shù)據(jù)等半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了淺層分析(如排序)。占總量近 60%的語(yǔ)音、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)還難以進(jìn)行有效的分析。

大數(shù)據(jù)分析技術(shù)的發(fā)展需要在兩個(gè)方面取得突破,一是對(duì)體量龐大的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效率的深度分析,挖掘隱性知識(shí),如從自然語(yǔ)言構(gòu)成的文本網(wǎng)頁(yè)中理解和識(shí)別語(yǔ)義、情感、意圖等;二是對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,將海量復(fù)雜多源的語(yǔ)音、圖像和視頻數(shù)據(jù)轉(zhuǎn)化為機(jī)器可識(shí)別的、具有明確語(yǔ)義的信息,進(jìn)而從中提取有用的知識(shí)。

目前的大數(shù)據(jù)分析主要有兩條技術(shù)路線(xiàn),一是憑借先驗(yàn)知識(shí)人工建立數(shù)學(xué)模型來(lái)分析數(shù)據(jù),二是通過(guò)建立人工智能系統(tǒng),使用大量樣本數(shù)據(jù)進(jìn)行訓(xùn)練,讓機(jī)器代替人工獲得從數(shù)據(jù)中提取知識(shí)的能力。由于占大數(shù)據(jù)主要部分的非結(jié)構(gòu)化數(shù)據(jù),往往模式不明且多變,因此難以靠人工建立數(shù)學(xué)模型去挖掘深藏其中的知識(shí)。

通過(guò)人工智能和機(jī)器學(xué)習(xí)技術(shù)分析大數(shù)據(jù),被業(yè)界認(rèn)為具有很好的前景。2006 年谷歌等公司的科學(xué)家根據(jù)人腦認(rèn)知過(guò)程的分層特性,提出增加人工神經(jīng)網(wǎng)絡(luò)層數(shù)和神經(jīng)元節(jié)點(diǎn)數(shù)量,加大機(jī)器學(xué)習(xí)的規(guī)模,構(gòu)建深度神經(jīng)網(wǎng)絡(luò),可提高訓(xùn)練效果,并在后續(xù)試驗(yàn)中得到證實(shí)。這一事件引起工業(yè)界和學(xué)術(shù)界高度關(guān)注,使得神經(jīng)網(wǎng)絡(luò)技術(shù)重新成為數(shù)據(jù)分析技術(shù)的熱點(diǎn)。目前,基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)技術(shù)已經(jīng)在語(yǔ)音識(shí)別和圖像識(shí)別方面取得了很好的效果。但未來(lái)深度學(xué)習(xí)要在大數(shù)據(jù)分析上廣泛應(yīng)用,還有大量理論和工程問(wèn)題需要解決,主要包括模型的遷移適應(yīng)能力,以及超大規(guī)模神經(jīng)網(wǎng)絡(luò)的工程實(shí)現(xiàn)等。

(三) 大數(shù)據(jù)技術(shù)創(chuàng)新呈現(xiàn)“原創(chuàng)-開(kāi)源-產(chǎn)品化”的階梯格局

當(dāng)前,國(guó)際上大數(shù)據(jù)技術(shù)創(chuàng)新方面形成了獨(dú)特的“互聯(lián)網(wǎng)公司原創(chuàng)——開(kāi)源擴(kuò)散——IT 廠商產(chǎn)品化——其他企業(yè)使用”特點(diǎn),如圖 5所示。

大數(shù)據(jù)技術(shù)

總結(jié)互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)技術(shù)創(chuàng)新方面的經(jīng)驗(yàn),如下幾個(gè)方面值得關(guān)注:

第一,豐富的數(shù)據(jù)和強(qiáng)大的平臺(tái)是大數(shù)據(jù)創(chuàng)新的基礎(chǔ)條件。以谷歌為例,它的數(shù)據(jù)資源極為豐富,擁有全球網(wǎng)頁(yè)索引庫(kù),掌握幾十億用戶(hù)的搜索行為數(shù)據(jù),建立了高分辨率的谷歌地圖數(shù)據(jù)數(shù)據(jù)庫(kù),擁有2014谷歌+社交數(shù)據(jù)和 YouTube 海量視頻數(shù)據(jù)。谷歌的基礎(chǔ)設(shè)施也十分強(qiáng)大,在全球擁有 36 個(gè)超大型數(shù)據(jù)中心,上百萬(wàn)臺(tái)服務(wù)器。

第二,大數(shù)據(jù)的應(yīng)用效益不是飛躍突進(jìn)的,必須依靠長(zhǎng)期的不斷累積。從搜索、廣告和推薦等成熟應(yīng)用來(lái)看,大數(shù)據(jù)的應(yīng)用效果并非立竿見(jiàn)影,其巨大的效益是在日積月累的微小進(jìn)步中逐漸形成的。

第三,累積效益的獲取,主要靠持續(xù)不斷的技術(shù)迭代?;ヂ?lián)網(wǎng)企業(yè)一直奉行敏捷開(kāi)發(fā)、快速迭代的軟件開(kāi)發(fā)理念,往往在一兩周內(nèi)就能完成一個(gè)“規(guī)劃、開(kāi)發(fā)、測(cè)試、發(fā)布”的迭代周期。大型互聯(lián)網(wǎng)企業(yè)通過(guò)這種長(zhǎng)期持續(xù)“小步快跑”的研發(fā)方式,支撐了大數(shù)據(jù)應(yīng)用效果的持續(xù)提升,建立了技術(shù)上的領(lǐng)先優(yōu)勢(shì)。

第四,技術(shù)和應(yīng)用一體化組織,是快速迭代的保障。互聯(lián)網(wǎng)企業(yè)之所以能夠保持高效率的持續(xù)技術(shù)演進(jìn),其研發(fā)和應(yīng)用一體化的組織方式是很重要的因素。與傳統(tǒng)行業(yè)“應(yīng)用者——解決方案提供商”分離的組織形態(tài)不同,互聯(lián)網(wǎng)企業(yè)省去了解決方案供應(yīng)商環(huán)節(jié),可以迅速將需求轉(zhuǎn)化為解決方案。谷歌、百度等大型互聯(lián)網(wǎng)企業(yè)的研發(fā)人員占比一般都在 50%~70%,遠(yuǎn)遠(yuǎn)高于其他類(lèi)型的公司,這為技術(shù)開(kāi)發(fā)提供了強(qiáng)大的后盾。

最后,大數(shù)據(jù)技術(shù)發(fā)展與開(kāi)源運(yùn)動(dòng)的結(jié)合也成為大數(shù)據(jù)技術(shù)創(chuàng)新中的一個(gè)鮮明特點(diǎn)。領(lǐng)先企業(yè)進(jìn)行前沿創(chuàng)新,創(chuàng)新成果通過(guò)開(kāi)源得到不斷完善并向全社會(huì)輻射,原創(chuàng)與開(kāi)源相得益彰,在國(guó)際上形成了一套高效運(yùn)轉(zhuǎn)的研發(fā)產(chǎn)業(yè)化體系。開(kāi)源模式讓人們“不必重復(fù)發(fā)明輪子”,能夠降低研發(fā)和采購(gòu)成本,還能夠啟發(fā)新的創(chuàng)意,加快再創(chuàng)新步伐。特別是開(kāi)源 Apache Hadoop 的大范圍應(yīng)用,大大加速了大數(shù)據(jù)應(yīng)用進(jìn)程,一大批互聯(lián)網(wǎng)公司和傳統(tǒng) IT 企業(yè)都從這種技術(shù)擴(kuò)散體系中受益。在此背景下,國(guó)內(nèi)大數(shù)據(jù)技術(shù)研發(fā)也應(yīng)該把自主創(chuàng)新和開(kāi)源結(jié)合起來(lái),以更加開(kāi)放的心態(tài)融入到國(guó)際大數(shù)據(jù)技術(shù)創(chuàng)新潮流中去。

責(zé)任編輯:彭凡 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2014-06-10 16:58:42

數(shù)據(jù)中心產(chǎn)品化

2018-06-06 15:00:27

開(kāi)源大數(shù)據(jù)大數(shù)據(jù)項(xiàng)目

2015-12-16 13:34:27

斐訊

2015-09-06 10:45:52

IFA技術(shù)創(chuàng)新

2012-12-07 10:58:31

Teradata 大數(shù)據(jù)天睿

2021-11-18 23:10:38

數(shù)據(jù)庫(kù)安全網(wǎng)絡(luò)安全

2018-08-01 16:55:39

技術(shù)

2015-01-08 21:59:00

2022-11-08 13:47:37

設(shè)備

2015-07-15 15:35:40

IFA

2015-06-25 09:51:02

中科曙光數(shù)據(jù)中國(guó)創(chuàng)新

2015-01-15 15:44:10

國(guó)雙

2012-10-08 09:42:41

2016-05-24 14:42:32

大數(shù)據(jù)技術(shù)創(chuàng)新IBM

2015-01-06 13:44:39

2012-06-07 09:01:46

2013-11-14 12:57:47

風(fēng)河嵌入式Linux

2020-07-28 15:56:56

華為云EI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)