我的代码正在使用aws glue和pyspark。我在aws glue中启用了连续日志。我不确定连续日志将在哪里存储日志数据。我正在使用下面的代码,
logger = logging.getLogger('My-code')
logger.setLevel(logging.INFO)
logger.info("Hello")
如何将这些数据(即logger.info(“hello”)重定向到文件中?
我的代码正在使用aws glue和pyspark。我在aws glue中启用了连续日志。我不确定连续日志将在哪里存储日志数据。我正在使用下面的代码,
logger = logging.getLogger('My-code')
logger.setLevel(logging.INFO)
logger.info("Hello")
如何将这些数据(即logger.info(“hello”)重定向到文件中?
1条答案
按热度按时间gywdnpxw1#
启用连续监视后,可以在cloudwatch中查看作业的完整日志。
要查看日志,您需要为粘合作业启用cloudwatch,然后您可以查看所有日志,还可以保留这些作业日志。
如果您希望将job直接生成到s3的日志,那么您不能使用文件协议或logger包,相反,您可以利用rdd方法,这有点不成熟。
创建一个包含所需日志消息的列表,最后使用
parallelize
然后将rdd保存到s3路径。但是更推荐使用cloudwatch来获取日志。