使用scala的apachespark日志解析

mepcadol  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(390)

如何使用scala解析下面的日志?
我想读取这类数据并将其放入一个配置单元表中。

log timestamp=“2018-04-06T22:43:19.565Z” eventCategory=“Application” eventType=“Error”

日志内容实际上是html标签</>

ngynwnxp

ngynwnxp1#

但是,为什么不能按原样在hive中加载数据日志呢?在配置单元中使用regexserde
制作目录

hdfs dfs -mkdir -p /some/hdfs/path

做一张table

DROP TABLE IF EXISTS logdata;

CREATE EXTERNAL TABLE logdata (
  timestamp STRING,
  eventCategory STRING,
  eventType STRING,
  )
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
  "input.regex" = "log timestamp=\“([^ ]*)\” eventCategory=\“([^ ]*)\” eventType=\“([^ ]*)\”",
  "output.format.string" = "%1$s %2$s %3$s"
)
STORED AS TEXTFILE
LOCATION '/some/hdfs/path/';

上传日志

hdfs dfs -copyFromLocal data.log /some/hdfs/path/

查询表

SELECT * FROM logdata;

相关问题