我有一些文本数据以Parquet格式存储在hivemetastore的hdfs中。每个观察可能包含也可能不包含\n作为文本本身的一部分。我需要将这些数据导出到一个文本(制表符或逗号分隔)文件,以便在python中进一步分析。如果要对数据运行查询并保存到文本文件,我会得到:
id,txt 1,我喜欢这个网站\n明天我会写更多2,这个网站有多酷\n
此时,由于额外的\n。我试图导出数据,但regexp\u replace函数似乎没有产生我所期望的剥离:
select id, regexp_replace(txt,'\\n',' ') as txt
from table
limit 1000
有什么办法处理这个问题吗?
暂无答案!
目前还没有任何答案,快来回答吧!