配置单元-如何将完整的html文件内容加载到单个配置单元行?

bqjvbblv  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(270)

我在hdfs路径中有1000个*.html文件,我想用这些文件创建配置单元表。但下面的查询给我一个“\n”分隔行,而不是html的全部内容。

> create external table if not exist mydb.myhtmltable (
> body STRING )
> STORED AS TEXTFILE
> LOCATION '/user/hadoop/dataset/refhtml';

如何将完整的html内容放入.body字段?我想要1000个html文件中的1000行。有可能吗?

roejwanj

roejwanj1#

添加以下内容:

LINES TERMINATED BY \789

其中789是要使用的unicode字符的八进制表示。
所以:

create external table if not exist mydb.myhtmltable (
 body STRING )
 STORED AS TEXTFILE
 LINES TERMINATED BY \789
 LOCATION '/user/hadoop/dataset/refhtml';

相关问题