自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

【大數(shù)據(jù)】Yarn Proxyserver 和 Historyserver 講解

大數(shù)據(jù) 數(shù)據(jù)分析
start-history-server.sh 腳本默認(rèn)情況下啟動(dòng)Spark History Server只是將文件存儲(chǔ)在/tmp/spark-events目錄下,這是本地文件系統(tǒng)路徑。如果您沒(méi)有在配置文件中指定spark.history.fs.logDirectory屬性,則Spark History Server將在該目錄下保存事件日志和歷史記錄。

一、YARN Proxy 概述

Web應(yīng)用程序代理是YARN的一部分。默認(rèn)情況下,它將作為資源管理器(RM)的一部分運(yùn)行,但可以配置為以獨(dú)立模式運(yùn)行。代理的原因是為了減少通過(guò)YARN進(jìn)行基于網(wǎng)絡(luò)的攻擊的可能性。

  • 在YARN中,應(yīng)用主機(jī)(AM)有責(zé)任提供web UI并將該鏈接發(fā)送到RM。這引發(fā)了許多潛在的問(wèn)題。RM以受信任用戶的身份運(yùn)行,訪問(wèn)該網(wǎng)址的人會(huì)將其及其提供給他們的鏈接視為受信任,而實(shí)際上AM是以不受信任用戶身份運(yùn)行的,并且它提供給RM的鏈接可能指向任何惡意或其他內(nèi)容。Web應(yīng)用程序代理通過(guò)警告不擁有給定應(yīng)用程序的用戶他們正在連接到不受信任的網(wǎng)站來(lái)減輕這種風(fēng)險(xiǎn)。
  • 除此之外,代理還試圖減少惡意AM可能對(duì)用戶造成的影響。它主要通過(guò)從用戶身上剝離cookie,并用一個(gè)提供登錄用戶用戶名的cookie來(lái)替換它們。這是因?yàn)榇蠖鄶?shù)基于網(wǎng)絡(luò)的身份驗(yàn)證系統(tǒng)都會(huì)根據(jù)cookie來(lái)識(shí)別用戶。通過(guò)將此cookie提供給不受信任的應(yīng)用程序,它打開了利用此cookie的可能性。如果cookie設(shè)計(jì)得當(dāng),那么潛力應(yīng)該相當(dāng)小,但這只是為了減少潛在的攻擊向量。

使用YARN Proxy,您可以做到以下幾點(diǎn):

  • 查看YARN集群的基本信息,包括作業(yè)的概述、cluster的Metrics和最近的作業(yè)歷史。
  • 查看當(dāng)前正在運(yùn)行的作業(yè)列表,并對(duì)其進(jìn)行管理。
  • 查看每個(gè)NodeManager的概述,以及它們所在的機(jī)器的系統(tǒng)和硬件資源使用情況。
  • 查看和搜索集群日志。
  • 查看簡(jiǎn)化的配置和狀態(tài)信息,以及錯(cuò)誤報(bào)告。
  • 使用REST API進(jìn)行遠(yuǎn)程調(diào)用和管理。

yarn proxyserver 配置參數(shù) yarn.web-proxy.address。用于分發(fā)Resource Manager訪問(wèn)請(qǐng)求。
Resourcemanager上點(diǎn)擊正在執(zhí)行的app,會(huì)跳轉(zhuǎn)到 yarn.web-proxy.address,這里展現(xiàn)正在執(zhí)行的job信息,job執(zhí)行結(jié)束后,會(huì)跳轉(zhuǎn)到historyserver上;若是沒(méi)有配置 yarn.web-proxy.address,則這個(gè)功能會(huì)集成到RM中。

官方文檔:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/WebApplicationProxy.html

二、環(huán)境準(zhǔn)備

如果已經(jīng)有了環(huán)境了,可以忽略,如果想快速部署環(huán)境進(jìn)行測(cè)試可以參考我這篇文章:通過(guò) docker-compose 快速部署 Hive 詳細(xì)教程

# 登錄容器
docker exec -it hive-hiveserver2 bash
# 連接hive
beeline -u jdbc:hive2://hive-hiveserver2:10000  -n hadoop

三、Hadoop 中的 historyserver

1)MapReduce Job History

MapReduce Job History,通常簡(jiǎn)稱為“Job History”,是Hadoop MapReduce框架的一部分,用于記錄已完成作業(yè)(job)的信息,包括它們的輸入輸出、計(jì)數(shù)器、任務(wù)(task)嘗試次數(shù)和任務(wù)失敗原因等。By默認(rèn)情況下,Job History將日志聚合到本地文件系統(tǒng),可以通過(guò)啟用HistoryServer來(lái)統(tǒng)一管理和監(jiān)視所有作業(yè)的歷史記錄。

2)Spark History Server

Spark通過(guò)Spark History Server記錄了應(yīng)用程序的歷史記錄。Spark History Server是一個(gè)可選的Web界面,用于查看已完成的應(yīng)用程序的事件和元數(shù)據(jù)。Spark集群中的所有工作節(jié)點(diǎn)都會(huì)將應(yīng)用程序的事件信息存儲(chǔ)在本地磁盤上。當(dāng)應(yīng)用程序完成后,它們的事件信息會(huì)被拷貝到Spark History Server節(jié)點(diǎn)所在的位置。

Spark History Server默認(rèn)情況下會(huì)監(jiān)聽(tīng) 18080 端口,您可以在瀏覽器中訪問(wèn)http://<host>:18080檢查已完成的應(yīng)用程序。

Spark History Server提供了以下幾種功能:

  • 查看已完成應(yīng)用程序的摘要信息,包括完成時(shí)間、運(yùn)行時(shí)間、狀態(tài)、應(yīng)用程序ID和應(yīng)用程序名稱等。
  • 查看應(yīng)用程序的所有階段和任務(wù)的摘要信息,包括階段ID、父級(jí)階段、任務(wù)ID、任務(wù)類型和任務(wù)執(zhí)行時(shí)間等。
  • 查看應(yīng)用程序的計(jì)數(shù)器信息,了解它們所使用的資源。
  • 查看應(yīng)用程序執(zhí)行期間的事件信息,例如Spark應(yīng)用程序的RDD、計(jì)算圖或輸出操作,以及在內(nèi)存、磁盤或網(wǎng)絡(luò)中執(zhí)行的任務(wù)。

總之,Spark History Server提供了一種簡(jiǎn)單的方法,可以查看Spark應(yīng)用程序的歷史記錄,包括成功或失敗的應(yīng)用程序的事件和元數(shù)據(jù),以便進(jìn)行分析和性能調(diào)整。

3)Flink History Server

Flink也有類似于Spark的History Server功能來(lái)記錄應(yīng)用程序的歷史記錄。Flink History Server是一個(gè)用于查看和管理已完成的Flink應(yīng)用程序的Web界面。

Flink History Server會(huì)收集已完成的應(yīng)用程序的事件信息和日志并保存在HDFS上。Flink歷史服務(wù)器本身本身是一個(gè)獨(dú)立的Flink應(yīng)用程序,它會(huì)檢索、解析和存儲(chǔ)存儲(chǔ)在HDFS上的事件信息和日志,用戶可以在Web界面中查看所有已完成應(yīng)用程序的詳細(xì)信息和日志。

Flink History Server提供以下幾個(gè)功能:

  • 查看已完成應(yīng)用程序的總體摘要信息,包括DAG、計(jì)數(shù)器、開始時(shí)間、結(jié)束時(shí)間和狀態(tài)等,可以從每個(gè)應(yīng)用程序的監(jiān)視視圖鏈接到此處。
  • 查看已完成應(yīng)用程序的詳細(xì)摘要信息,包括自定義計(jì)數(shù)器和速率指標(biāo)等,同時(shí)還提供查看作業(yè)執(zhí)行計(jì)劃、Web UI日志和單個(gè)任務(wù)的摘要信息的鏈接。
  • 通過(guò)不同的方式搜索和過(guò)濾應(yīng)用程序,例如按作業(yè)ID、作業(yè)名稱、狀態(tài)、起始日期和結(jié)束日期等查詢。
  • 查看歷史記錄詳情,可以查看Flink任務(wù)、操作符和物理執(zhí)行計(jì)劃的完整概覽,并提供任務(wù)日志和操作符跟蹤的鏈接。

總之,F(xiàn)link History Server是一個(gè)很有用的工具,可以允許您查看和分析Flink作業(yè)的執(zhí)行情況。它提供了豐富的功能,如過(guò)濾、搜索、摘要等,使得您可以更好地了解應(yīng)用程序的執(zhí)行過(guò)程。

四、相關(guān)配置

1)yarn proxyserver 配置

配置如下:

$HADOOP_HOME/etc/hadoop/yarn-site.xml

<configuration>
...
  <property>
    <name>yarn.web-proxy.address</name>
    <value>hadoop-yarn-proxyserver:9111</value>
  </property>
...
</configuration>

2)historyserver 配置

1、MapReduce Job History

mapreduce.jobhistory.address 和 mapreduce.jobhistory.webapp.address 都是與MapReduce作業(yè)歷史記錄(JobHistory)相關(guān)的配置屬性。它們分別指定JobHistory服務(wù)器運(yùn)行的地址(IP地址或域名)和端口號(hào),以及Web界面的地址和端口號(hào)。

  • mapreduce.jobhistory.address 用于指定JobHistory服務(wù)器的地址(IP地址或域名)和端口號(hào),讓MapReduce框架知道將作業(yè)歷史記錄發(fā)送到哪個(gè)服務(wù)器。例如:
  • mapreduce.jobhistory.webapp.address 用于指定JobHistory服務(wù)器的Web界面地址和端口號(hào),讓用戶可以通過(guò)Web訪問(wèn)作業(yè)歷史記錄。例如:

配置文件:$HADOOP_HOME/etc/hadoop/mapred-site.xml

<configuration>
...
  <!-- MR程序歷史服務(wù)地址 -->
  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop-mr-historyserver:10020</value>
  </property>

  <!-- MR程序歷史服務(wù)web端地址 -->
  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop-mr-historyserver:19888</value>
  </property>
...
</configuration>

2、Spark History Server

修改 spark-defaults.conf,添加如下內(nèi)容:

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop-hdfs-nn:9000/sparkhistory
spark.driver.memory              64g
spark.eventLog.compress true

修改spark-env.sh,添加如下內(nèi)容:

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=7777 -Dspark.history.fs.logDirectory=hdfs://hadoop-hdfs-nn:9000/sparkhistory"

3、Flink History Server

Flink 提供了 history server,可以在相應(yīng)的 Flink 集群關(guān)閉之后查詢已完成作業(yè)的統(tǒng)計(jì)信息。此外,它暴露了一套 REST API,該 API 接受 HTTP 請(qǐng)求并返回 JSON 格式的數(shù)據(jù)。

配置項(xiàng) jobmanager.archive.fs.dir 和 historyserver.archive.fs.refresh-interval 需要根據(jù) 作業(yè)存檔目錄 和 刷新作業(yè)存檔目錄的時(shí)間間隔 進(jìn)行調(diào)整。

# 監(jiān)視以下目錄中已完成的作業(yè)
historyserver.archive.fs.dir: hdfs:///hadoop-hdfs-nn:9000/flinkhistory
historyserver.web.address: 0.0.0.0:8082
# 每 10 秒刷新一次
historyserver.archive.fs.refresh-interval: 10000

五、yarn proxyserver 和 historyserver 啟停

1)yarn proxyserver 啟停

$HADOOP_HOME/bin/yarn --daemon start proxyserver

$HADOOP_HOME/bin/yarn --daemon stop proxyserver

2)historyserver 啟停

1、MapReduce Job History 啟停

$HADOOP_HOME/bin/mapred --daemon start historyserver
$HADOOP_HOME/bin/mapred --daemon stop historyserver

2、Spark History Server 啟停

$SPARK_HOME/sbin/start-history-server.sh
$SPARK_HOME/sbin/stop-history-server.sh

【溫馨提示】start-history-server.sh 腳本默認(rèn)情況下啟動(dòng)Spark History Server只是將文件存儲(chǔ)在/tmp/spark-events目錄下,這是本地文件系統(tǒng)路徑。如果您沒(méi)有在配置文件中指定spark.history.fs.logDirectory屬性,則Spark History Server將在該目錄下保存事件日志和歷史記錄。對(duì)于開發(fā)和測(cè)試目的而言,這個(gè)默認(rèn)的存儲(chǔ)路徑是足夠的。

3、Flink History Server 啟停

$FLINK_HOME/bin/historyserver.sh start
$FLINK_HOME/bin/historyserver.sh stop


責(zé)任編輯:武曉燕 來(lái)源: 今日頭條
相關(guān)推薦

2023-05-06 07:15:59

Hive內(nèi)置函數(shù)工具

2023-05-11 00:17:44

分區(qū)HiveReduce

2023-05-06 07:20:27

HiveDDL管理表

2023-05-03 22:09:02

Hive分區(qū)工具,

2023-11-26 00:13:16

開源數(shù)據(jù)Logstash

2013-10-08 10:53:36

2009-12-21 18:46:50

WCF傳輸大數(shù)據(jù)

2014-07-31 08:54:33

2015-09-09 13:18:52

2016-10-27 14:24:46

大數(shù)據(jù)傳統(tǒng)BI

2023-05-08 23:20:49

WebYARN管理

2018-04-17 09:03:01

SparkRDD大數(shù)據(jù)

2020-04-22 14:34:42

大數(shù)據(jù)Hadoop技術(shù)

2013-05-06 10:22:28

大數(shù)據(jù)Hadoop

2019-04-15 15:32:12

大數(shù)據(jù)開發(fā)數(shù)據(jù)分析數(shù)據(jù)科學(xué)

2020-07-23 07:24:40

Kubernetes大數(shù)據(jù)開發(fā)

2015-08-24 15:06:13

大數(shù)據(jù)

2021-02-10 16:03:19

大數(shù)據(jù)開源框架

2023-12-26 00:55:51

資源隔離CPU

2012-12-28 13:34:16

大數(shù)據(jù)數(shù)據(jù)中心高效
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)