如何使用scala解析下面的日志?我想读取这类数据并将其放入一个配置单元表中。
log timestamp=“2018-04-06T22:43:19.565Z” eventCategory=“Application” eventType=“Error”
日志内容实际上是html标签</>
ngynwnxp1#
但是,为什么不能按原样在hive中加载数据日志呢?在配置单元中使用regexserde制作目录
hdfs dfs -mkdir -p /some/hdfs/path
做一张table
DROP TABLE IF EXISTS logdata; CREATE EXTERNAL TABLE logdata ( timestamp STRING, eventCategory STRING, eventType STRING, ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe' WITH SERDEPROPERTIES ( "input.regex" = "log timestamp=\“([^ ]*)\” eventCategory=\“([^ ]*)\” eventType=\“([^ ]*)\”", "output.format.string" = "%1$s %2$s %3$s" ) STORED AS TEXTFILE LOCATION '/some/hdfs/path/';
上传日志
hdfs dfs -copyFromLocal data.log /some/hdfs/path/
查询表
SELECT * FROM logdata;
1条答案
按热度按时间ngynwnxp1#
但是,为什么不能按原样在hive中加载数据日志呢?在配置单元中使用regexserde
制作目录
做一张table
上传日志
查询表