Amazon EMR簡(jiǎn)介
Amazon EMR 提供的托管 Hadoop 框架可以讓您快速輕松、經(jīng)濟(jì)高效地在多個(gè)動(dòng)態(tài)可擴(kuò)展的 Amazon EC2 實(shí)例之間處理大量數(shù)據(jù)。您還可以運(yùn)行其他常用的分布式框架 (例如 Amazon EMR 中的 Apache Spark、HBase、Presto 和 Flink),以及與其他 AWS 數(shù)據(jù)存儲(chǔ)服務(wù) (例如 Amazon S3 和 Amazon DynamoDB) 中的數(shù)據(jù)進(jìn)行交互。
Amazon EMR 能夠安全可靠地處理廣泛的大數(shù)據(jù)使用案例,包括日志分析、Web 索引、數(shù)據(jù)轉(zhuǎn)換 (ETL)、機(jī)器學(xué)習(xí)、財(cái)務(wù)分析、科學(xué)模擬和生物信息。
借助 Amazon EMR 上受版本控制的發(fā)布策略,您可以在 EMR 集群中輕松選擇和使用***的開(kāi)源項(xiàng)目,包括 Apache Hadoop 和 Spark 生態(tài)系統(tǒng)中的應(yīng)用程序。軟件由 Amazon EMR 進(jìn)行安裝和配置,使您能夠投入更多時(shí)間來(lái)提高數(shù)據(jù)價(jià)值,而不用操心基礎(chǔ)設(shè)施和管理任務(wù)。
優(yōu)點(diǎn)
1、易于使用
只需幾分鐘即可啟動(dòng) Amazon EMR 集群。您不必?fù)?dān)心節(jié)點(diǎn)預(yù)置、集群設(shè)置、Hadoop 配置或集群優(yōu)化。Amazon EMR 自會(huì)處理這些任務(wù),因此您只需集中精力進(jìn)行分析即可。
2、成本低廉
Amazon EMR 定價(jià)原理簡(jiǎn)單且可預(yù)測(cè):您按使用的每秒支付每秒費(fèi)率,以一分鐘起算。您可以按低至每小時(shí) 0.15 USD 的價(jià)格啟動(dòng) 10 節(jié)點(diǎn) Hadoop 集群。因?yàn)?Amazon EMR 在設(shè)計(jì)理念上支持 Amazon EC2 競(jìng)價(jià)和預(yù)留實(shí)例,您還可以將基礎(chǔ)實(shí)例成本節(jié)省 50-80%。
3、靈活
使用 Amazon EMR,您可以預(yù)置一個(gè)、數(shù)百個(gè)或者甚至數(shù)千個(gè)計(jì)算實(shí)例來(lái)處理任何規(guī)模的數(shù)據(jù)。您可以手動(dòng)或使用 Auto Scaling 輕松增加或減少實(shí)例的數(shù)量,并且按實(shí)際用量付費(fèi)。
4、運(yùn)行可靠
您用于調(diào)試和監(jiān)控集群的時(shí)間將更少。Amazon EMR 已經(jīng)針對(duì)云優(yōu)化了 Hadoop,它還會(huì)監(jiān)控您的集群,重新嘗試失敗的任務(wù),并自動(dòng)替換性能不佳的實(shí)例。
5、安全
Amazon EMR 會(huì)自動(dòng)配置 Amazon EC2 防火墻設(shè)置以控制對(duì)實(shí)例的網(wǎng)絡(luò)訪問(wèn),并且您可以在 Amazon Virtual Private Cloud (VPC) (由您定義的邏輯隔離的網(wǎng)絡(luò)) 中啟動(dòng)集群。對(duì)于 Amazon S3 中儲(chǔ)存的對(duì)象,您可以通過(guò) AWS Key Management Service 或客戶管理的密鑰來(lái)使用 Amazon S3 服務(wù)器端加密或采用 EMRFS 的 Amazon S3 客戶端加密。您還可以輕松啟用其他加密選項(xiàng)和 Kerberos 身份驗(yàn)證。
6、靈活
您可以完全掌控您的集群。您擁有每個(gè)實(shí)例的根訪問(wèn)權(quán)限,因此,您可以輕松安裝額外的應(yīng)用程序,并使用引導(dǎo)操作自定義每個(gè)集群。此外,您還可以使用自定義 Amazon Linux AMI 啟動(dòng) Amazon EMR 集群。
您可以使用Amazon EMR構(gòu)建什么內(nèi)容?
1、點(diǎn)擊流分析
Amazon EMR 可用于分析點(diǎn)擊流數(shù)據(jù),以便細(xì)分用戶、了解各種用戶偏好,并投放更有效的廣告。
2、實(shí)時(shí)分析
借助 Amazon EMR 上的 Spark Streaming,使用和處理來(lái)自 Amazon Kinesis、Apache Kafka 或其他數(shù)據(jù)流的實(shí)時(shí)數(shù)據(jù)。采用容錯(cuò)方式執(zhí)行流分析,并將相應(yīng)結(jié)果寫入 Amazon S3 或 HDFS 中。
3、日志分析
Amazon EMR 可用于處理 Web 和移動(dòng)應(yīng)用程序生成的各種日志。Amazon EMR 可幫助客戶將數(shù) PB 的非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)橛杏玫膽?yīng)用程序或者用戶洞察數(shù)據(jù)。
4、提取、轉(zhuǎn)換、加載 (ETL)
Amazon EMR 可用于在大型數(shù)據(jù)集上快速且經(jīng)濟(jì)高效地執(zhí)行數(shù)據(jù)轉(zhuǎn)換工作負(fù)載 (ETL),例如分類、聚合和合并。
5、預(yù)測(cè)分析
Amazon EMR 上的 Apache Spark 包括適用于各種可擴(kuò)展的機(jī)器學(xué)習(xí)算法的 MLlib,您也可以使用自己的庫(kù)。通過(guò)將數(shù)據(jù)集存儲(chǔ)在內(nèi)存中,Spark 可以為常見(jiàn)的機(jī)器學(xué)習(xí)工作負(fù)載提供出色的性能。
6、基因組學(xué)
Amazon EMR 可迅速高效地處理大量的基因組數(shù)據(jù)及其他大型科學(xué)數(shù)據(jù)集。研究人員可以訪問(wèn) AWS 上托管的免費(fèi)基因組數(shù)據(jù)。