无法查询spark创建的Parquet文件

vmdwslir 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(332)

在spark中创建了Parquet文件。下面是代码片段

parquet_file_name = os.path.join(partition, os.path.basename(fileLocation) + ".parquet")

dfData = sqlContext.createDataFrame(addedColumns, schema)

dfData.save(parquet_file_name, "parquet", "append")

我可以在spark中读取文件内容。

In [1]:
sqlContext = SQLContext(sc)
parquetFile = sqlContext.parquetFile("/temp//browser/pub/browser.parquet/part-r-00001.parquet")
parquetFile.head(10)

Out[1]:
[Row(browserID=u'1', browserName=u'Lynx 2.7.1'),
 Row(browserID=u'2', browserName=u'Lynx 2.7'),
 Row(browserID=u'3', browserName=u'Lynx 2.6'),
 Row(browserID=u'4', browserName=u'Lynx 2.5'),
 Row(browserID=u'5', browserName=u'Lynx 2.4'),
 Row(browserID=u'6', browserName=u'Lynx (unknown version)'),
 Row(browserID=u'7', browserName=u'Lotus Notes 4.5'),
 Row(browserID=u'8', browserName=u'AOL 4.0'),
 Row(browserID=u'9', browserName=u'AOL 3.0'),
 Row(browserID=u'10', browserName=u'Microsoft Internet Explorer 5.0 beta 2')]

使用以下语法在parquet文件上创建了一个配置单元外部表

CREATE EXTERNAL TABLE browser
(
fld1 string,
fld2 string,
FileName string,
LoadDate string,
Checksum string,
RecordId string
)
PARTITIONED BY (fname string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS
INPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION 'hdfs://nameservice1/temp/dims/browser';

修改表以添加分区

ALTER TABLE browser ADD PARTITION (fname='browser.parquet')
LOCATION 'hdfs://nameservice1/temp/dims/browser/browser.parquet';

select*from table in对所有行和列返回null。

select * from browser;

browser.fld1    browser.fld2    browser.filename    browser.loaddate    browser.checksum    browser.recordid    browser.fname
0   NULL    NULL    NULL    NULL    NULL    NULL    browser.parquet/part-r-00001.parquet
1   NULL    NULL    NULL    NULL    NULL    NULL    browser.parquet/part-r-00001.parquet
2   NULL    NULL    NULL    NULL    NULL    NULL    browser.parquet/part-r-00001.parquet
3   NULL    NULL    NULL    NULL    NULL    NULL    browser.parquet/part-r-00001.parquet
4   NULL    NULL    NULL    NULL    NULL    NULL    browser.parquet/part-r-00001.parquet
5   NULL    NULL    NULL    NULL    NULL    NULL    browser.parquet/part-r-00001.parquet
6   NULL    NULL    NULL    NULL    NULL    NULL    browser.parquet/part-r-00001.parquet

cloudera cdh 5.4.1
Spark1.3.0
色调3.7.0
任何指针如何解决这个问题，如果你需要额外的信息需要我会补充。谢谢。

hadoop Hive apache-spark parquet

来源：https://stackoverflow.com/questions/35328815/cannot-query-parquet-file-created-by-spark

1条答案

按热度按时间

iqjalb3h1#

您使用的配置单元架构似乎与Parquet文件内容不同，请参见：

Row(browserID=u'1', browserName=u'Lynx 2.7.1')

它看起来一点也不像表定义。您可以使用以下内容查看spark中的Parquet模式：

val f = sqlContext.parquetFile( "your file")
f.schema.foreach( x => println(x.name, x.dataType))

看看它和Hive有什么不同。
另外，为了确保涵盖所有的基础知识，为什么不让spark为您创建Hive表呢？

val hc = new org.apache.spark.sql.hive.HiveContext(sc)
yourDF.saveAsTable("yourtable")

另外，最近版本的hive本机支持parquet，因此您应该能够说“save as parquet”，而不是指定serde/inputformat/outputformat

赞(0）回复(0）举报 2021-05-29

我来回答

无法查询spark创建的Parquet文件

1条答案

相关问题

热门标签

最新问答