自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英特爾開源分布式深度學(xué)習(xí)庫BigDL:支持高性能大數(shù)據(jù)分析

大數(shù)據(jù) 數(shù)據(jù)分析 分布式
近日,英特爾開源了一個(gè)運(yùn)行在 Apache Spark 上的分布式深度學(xué)習(xí)庫 BigDL,其可以利用已有的 Spark 集群來運(yùn)行深度學(xué)習(xí)計(jì)算,并且還能簡(jiǎn)化從 Hadoop 的大數(shù)據(jù)集的數(shù)據(jù)加載。

近日,英特爾開源了一個(gè)運(yùn)行在 Apache Spark 上的分布式深度學(xué)習(xí)庫 BigDL,其可以利用已有的 Spark 集群來運(yùn)行深度學(xué)習(xí)計(jì)算,并且還能簡(jiǎn)化從 Hadoop 的大數(shù)據(jù)集的數(shù)據(jù)加載。

開源地址>>>

據(jù)介紹,在 Xeon 服務(wù)器上的測(cè)試表明,BigDL 相比于 Caffe、Torch 或 TensorFlow 等開源框架實(shí)現(xiàn)了顯著的速度提升。其速度可與主流的 GPU 相媲美,而且 BigDL 也能擴(kuò)展到多達(dá)數(shù)十個(gè) Xeon 服務(wù)器。

英特爾開源分布式深度學(xué)習(xí)庫BigDL:支持高性能大數(shù)據(jù)分析

BigDL 庫支持 Spark 1.5、1.6 和 2.0,并且允許將深度學(xué)習(xí)嵌入到已有的基于 Spark 的程序中。其中包含了將 Spark RDD(Resilient Distributed Datasets,彈性分布式數(shù)據(jù)集)轉(zhuǎn)換成 BigDL 定義的 Dataset 的方法,并且也可以直接運(yùn)用到 Spark ML Pipelines 上。

為了進(jìn)行模型訓(xùn)練,BigDL 應(yīng)用了一個(gè)同步小批量隨機(jī)梯度下降(synchronous mini-batch SGD),該過程在跨多個(gè)執(zhí)行器(executor)的單個(gè) Spark 任務(wù)中執(zhí)行。每一個(gè)執(zhí)行器都執(zhí)行一個(gè)多線程引擎并處理一部分微批量數(shù)據(jù)(micro-batch data)。在當(dāng)前的版本中,所有的訓(xùn)練和驗(yàn)證數(shù)據(jù)都會(huì)加載到內(nèi)存(memory)中。

BigDL 是用 Scala 實(shí)現(xiàn)的,并且模仿了 Torch。類似于 Torch,它也提供了一個(gè) Tensor 類,其使用了 Intel MKL 庫進(jìn)行計(jì)算。Intel MKL 是英特爾的數(shù)學(xué)核心函數(shù)庫(Math Kernel Library)的縮寫,其中包含了一系列為計(jì)算優(yōu)化過的歷程,其中包括 FFT(快速傅立葉變換)和矩陣乘法等等,這些計(jì)算在深度學(xué)習(xí)模型訓(xùn)練中有廣泛的應(yīng)用。另外受到 Torch 的 nn 包(https://github.com/torch/nn)的啟發(fā),BigDL 借鑒了 Torch,提出了 Module 的概念,用于表示單個(gè)神經(jīng)網(wǎng)絡(luò)層、Table 和 Criterion。

BigDL 還提供了一個(gè) AWS EC2 鏡像和一些案例,其中包括:文本分類(使用卷積神經(jīng)網(wǎng)絡(luò))、圖像分類、以及將 Torch 或 Caffe 中預(yù)訓(xùn)練的模型加載到 Spark 中用于預(yù)測(cè)計(jì)算的方法。目前社區(qū)討論區(qū)上大多數(shù)用戶請(qǐng)求 BigDL 支持 Python,以及開發(fā) MKL-DNN(MKL 的深度學(xué)習(xí)擴(kuò)展)。

以下是 BigDL GitHub 項(xiàng)目的 README.md 介紹:

BigDL:在 Apache Spark 上的分布式深度學(xué)習(xí)

BigDL 是什么?

BigDL 是一個(gè)用于 Apache Spark 的分布式深度學(xué)習(xí)庫。使用 BigDL,用戶可以像編寫標(biāo)準(zhǔn) Spark 程序一樣編寫深度學(xué)習(xí)應(yīng)用,并且可以直接將其運(yùn)行在已有的 Spark 或 Hadoop 集群上。BigDL 有哪些優(yōu)點(diǎn)呢?

豐富的深度學(xué)習(xí)支持。類似 Torch,BigDL 提供了全面的深度學(xué)習(xí)支持,包括數(shù)值計(jì)算(通過 Tensor)和高層面的神經(jīng)網(wǎng)絡(luò);此外,用戶還可以使用 BigDL 將預(yù)訓(xùn)練的 Caffe 或 Torch 模型加載到 Spark 程序中。

極高的性能。為了實(shí)現(xiàn)高性能,BigDL 在每一個(gè) Spark 任務(wù)中都使用了 Intel MKL 和多線程編程。從而使得 BigDL 在單節(jié)點(diǎn) Xeon(與主流 GPU 媲美)上能夠?qū)崿F(xiàn)比當(dāng)前開源的 Caffe、Torch 或 TensorFlow 快幾個(gè)數(shù)量級(jí)的表現(xiàn)。

有效的擴(kuò)展。BigDL 可以利用 Apache Spark(一種超快的分布式數(shù)據(jù)處理框架)以及同步 SGD 的有效實(shí)現(xiàn)和在 Spark 上的 all-reduce 通信來進(jìn)行有效地?cái)U(kuò)展,從而可在「大數(shù)據(jù)規(guī)?!股蠄?zhí)行數(shù)據(jù)分析。

為什么選擇 BigDL?

如果你滿足以下條件,你就應(yīng)該使用 BigDL 來編寫你的深度學(xué)習(xí)程序:

  • 你想在數(shù)據(jù)存儲(chǔ)(比如以 HDFS、HBase、Hive 等方式)于的同一個(gè)大數(shù)據(jù)(Hadoop/Spark)集群上進(jìn)行大量數(shù)據(jù)的分析。
  • 你想為你的大數(shù)據(jù)(Spark)程序和/或工作流添加深度學(xué)習(xí)功能(不管是訓(xùn)練還是預(yù)測(cè))。
  • 你想使用已有的 Hadoop/Spark 集群來運(yùn)行你的深度學(xué)習(xí)應(yīng)用,然后將其動(dòng)態(tài)地共享給其它工作負(fù)載(如 ETL、數(shù)據(jù)倉庫、特征工程、經(jīng)典機(jī)器學(xué)習(xí)、圖分析等等)。
責(zé)任編輯:未麗燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2013-04-27 11:43:19

大數(shù)據(jù)全球技術(shù)峰會(huì)

2017-01-20 13:58:31

英特爾GPUCPU

2021-09-23 16:10:06

數(shù)據(jù)庫工具技術(shù)

2013-02-18 15:15:32

英特爾大數(shù)據(jù)Apache

2013-03-15 17:37:33

Hadoop英特爾CPU

2013-11-20 11:30:12

英特爾超算技術(shù)大數(shù)據(jù)分析

2017-07-21 13:02:30

英特爾Cloudera

2013-03-07 10:16:04

紅帽

2017-02-15 14:36:12

開源大數(shù)據(jù)TensorFlowO

2010-06-03 18:28:54

英特爾高性能計(jì)算

2023-12-18 11:21:40

MongoDB數(shù)據(jù)庫

2013-05-07 11:40:52

英特爾低功耗高性能

2015-09-24 14:52:29

英特爾數(shù)據(jù)分析精準(zhǔn)醫(yī)療

2017-01-11 16:36:51

Intel開源BigDL

2013-11-22 15:18:27

2022-06-30 08:04:16

Redis分布式鎖Redisson

2023-11-14 08:24:59

性能Scylla系統(tǒng)架構(gòu)

2013-02-28 10:04:27

英特爾Hadoop大數(shù)據(jù)

2013-08-19 09:04:25

英特爾大數(shù)據(jù)

2020-09-28 14:49:48

多架構(gòu)英特爾性能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)