如何为hadoopmapreduce2历史服务器启用gc日志记录，同时防止日志文件覆盖和限制磁盘空间使用

我们最近决定在多个集群上为hadoopmapreduce2历史服务器启用gc日志记录（具体版本各不相同），以帮助研究与历史服务器相关的内存和垃圾收集问题。在执行此操作时，我们希望避免可能发生的两个问题：
当mr2历史服务器因任何原因重新启动时，覆盖日志文件
日志占用了太多的磁盘空间，导致磁盘被填满
当一个进程的javagc日志记录开始时，它似乎会替换任何同名文件的内容。这意味着除非您小心，否则您将丢失gc日志记录，可能是在您更需要它的时候。
如果集群运行的时间足够长，除非进行管理，否则日志文件将填满磁盘。即使gc日志记录目前不是大量的，我们也希望管理出现异常情况的风险，这种情况会导致日志记录速率突然上升。

在启动mapreduce2历史服务器时，需要设置一些jvm参数，这意味着您需要对mapred-env.sh进行一些更改。您可以在hadoop\u opts中设置参数，但这将产生比历史服务器更广泛的影响，因此您可能希望在 HADOOP_JOB_HISTORYSERVER_OPTS .
现在让我们来讨论要包含在这些参数中的jvm参数。
要启用文件的gc日志记录，您需要添加 -verbose:gc -Xloggc:<log-file-location> .
您需要特别考虑日志文件名，以防止在服务器重新启动时进行覆盖。似乎每次调用都需要一个唯一的名称，因此附加时间戳似乎是最好的选择。您可以包含类似“date+'%y%m%d%h%m'”的内容来添加时间戳。在本例中，它的格式为yyyymmddhhmm。在某些版本的java中，您可以将“%t”放在日志文件位置，它将被格式为yyyy-mm-dd\uhh-mm-ss的服务器启动时间戳替换。
现在开始管理磁盘空间的使用。如果有比我现有的更简单的方法，我会很高兴的。
首先，利用java内置的gc日志文件循环。 -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=10M 是启用这种循环的一个例子，jvm中最多有10个gc日志文件，每个文件的大小不超过10mb左右。10x10MB是100mb的最大使用量。
随着gc日志文件轮换到位，最多有10个文件，“.0”、“.1”、“…”。9'将添加到您提供的文件名中 Xloggc . .0将是第一个，在它到达.9之后，它将替换.0并以循环方式继续。在java的某些版本中，“.current”将另外放在当前正在写入的日志文件名称的末尾。
由于文件命名的唯一性，我们显然必须避免重写，每个历史服务器调用可以有100mb，因此这不是管理服务器gc日志使用的磁盘空间的总体解决方案。在每次服务器调用上，您将得到一组最多10个gc日志文件——这可能会随着时间的推移而增加。最好的解决方案（在*nix下）似乎是使用logrotate实用程序（或其他一些实用程序）定期清理在过去n天内没有修改过的gc日志。
一定要计算一下，确保你有足够的磁盘空间。
人们通常希望在gc日志中包含比默认日志更多的细节和上下文，因此考虑添加 -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps .
把这些放在一起，您可以向mapred env添加以下内容：


## enable GC logging for MR2 History Server:

TIMESTAMP=`date +'%Y%m%d%H%M'`

# GC log location/name prior to .n addition by log rotation

JOB_HISTORYSERVER_GC_LOG_NAME="{{mapred_log_dir_prefix}}/$USER/mapred-jobhistory-gc.log-$TIMESTAMP"

JOB_HISTORYSERVER_GC_LOG_ENABLE_OPTS="-verbose:gc -Xloggc:$JOB_HISTORYSERVER_GC_LOG_NAME"
JOB_HISTORYSERVER_GC_LOG_ROTATION_OPTS="-XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=10M"
JOB_HISTORYSERVER_GC_LOG_FORMAT_OPTS="-XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps"

JOB_HISTORYSERVER_GC_LOG_OPTS="$JOB_HISTORYSERVER_GC_LOG_ENABLE_OPTS $JOB_HISTORYSERVER_GC_LOG_ROTATION_OPTS $JOB_HISTORYSERVER_GC_LOG_FORMAT_OPTS"
export HADOOP_JOB_HISTORYSERVER_OPTS="$HADOOP_JOB_HISTORYSERVER_OPTS $JOB_HISTORYSERVER_GC_LOG_OPTS"

你可能会发现你已经提到 HADOOP_JOB_HISTORYSERVER_OPTS 所以你应该替换或者加上它。
在上面，你可以改变 {{mapred_log_dir_prefix}}/$USER 到您希望gc日志去的任何地方（您可能希望它去与mapreduce历史服务器日志相同的地方）。您也可以更改日志文件的命名。
如果您使用apacheambari管理hadoop集群，那么这些更改将出现在mapreduce2 service>configs>advanced>advanced mapred env>mapred env template中。和Ambari在一起， {{mapred_log_dir_prefix}} 将自动替换为字段上方几行定义的mapreduce log dir前缀。
gc日志记录将在服务器重新启动服务器时开始，因此您可能需要短暂的中断才能启用此功能。

如何为hadoopmapreduce2历史服务器启用gc日志记录，同时防止日志文件覆盖和限制磁盘空间使用

1条答案

相关问题

热门标签

最新问答