如何在aws glue中将日志数据写入文件?

drkbr07n  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(337)

我的代码正在使用aws glue和pyspark。我在aws glue中启用了连续日志。我不确定连续日志将在哪里存储日志数据。我正在使用下面的代码,

logger = logging.getLogger('My-code')
logger.setLevel(logging.INFO)
logger.info("Hello")

如何将这些数据(即logger.info(“hello”)重定向到文件中?

gywdnpxw

gywdnpxw1#

启用连续监视后,可以在cloudwatch中查看作业的完整日志。
要查看日志,您需要为粘合作业启用cloudwatch,然后您可以查看所有日志,还可以保留这些作业日志。
如果您希望将job直接生成到s3的日志,那么您不能使用文件协议或logger包,相反,您可以利用rdd方法,这有点不成熟。
创建一个包含所需日志消息的列表,最后使用 parallelize 然后将rdd保存到s3路径。
但是更推荐使用cloudwatch来获取日志。

相关问题