我有一个日志文件,我需要分裂使用pysparkDataframe
20/06/25 12:19:33 INFO datasources.FileScanRDD: Reading File path: hdfs://bpaiddev/dev/data/warehouse/clean/falcon/ukc/masked_data/parquet/FRAUD_CUSTOMER_INFORMATION/rcd_crt_dttm_yyyymmdd=20200523/part-0042-ed52abc2w.c000.snapp.parquet, range:0-27899, partition values :[20200523]
20/06/25 12:19:34 INFO executor.EXECUTOR: Finished task 18.0 in stage 0.0 (TID 18),18994 bytes result sent to driver
从日志示例中,您可以看到第一行与第二行相比有更多的细节。我想要 Timestamp, Status ,Message,Range,Value
第一行的列,第二行我只能 Timestamp,Status,Message
柱。
如何将regex函数应用于此类数据?请帮我解决这个问题。谢谢!
预期产量:
+-----------------+------+--------------------+--------------+--------------------+
| time_val|status| log_message| range| value|
+-----------------+------+--------------------+--------------+--------------------+
|20/06/25 12:19:33| INFO|datasources.FileS...| range:0-27899| partition values...|
|20/06/25 12:19:34| INFO|executor.EXECUTORd..| | |
+-----------------+------+--------------------+--------------+--------------------+
1条答案
按热度按时间tyky79it1#
您可以首先用
Timestamp
、“状态”和所有剩余的String
.现在,你先用
Message,Range,Value
如下所示,然后你可以处理另一行刚刚有消息,