如何替换impala parquet文件中的\n?

qqrboqgw  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(247)

我有一些文本数据以Parquet格式存储在hivemetastore的hdfs中。每个观察可能包含也可能不包含\n作为文本本身的一部分。我需要将这些数据导出到一个文本(制表符或逗号分隔)文件,以便在python中进一步分析。如果要对数据运行查询并保存到文本文件,我会得到:
id,txt 1,我喜欢这个网站\n明天我会写更多2,这个网站有多酷\n
此时,由于额外的\n。我试图导出数据,但regexp\u replace函数似乎没有产生我所期望的剥离:

select id, regexp_replace(txt,'\\n',' ') as txt
from table
limit 1000

有什么办法处理这个问题吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题