从spark读取配置单元外部表时额外的头文件来了？

4ioopgfo 于 2021-06-24 发布在 Hive

关注(0)|答案(0)|浏览(367)

我在配置单元中创建了一个外部表，并将csv放在外部表所指向的hdfs位置上。在签入色调时，表输出的格式是正确的，但是当我尝试使用spark读取同一个表时，Dataframe的第一行与header相同，即header被复制了两次。
cdh版本：hive 1.1.0-cdh5.13.1
ddl公司

CREATE EXTERNAL TABLE `dummy`(
  name string,
  age string
)
ROW FORMAT SERDE    
  'org.apache.hadoop.hive.serde2.OpenCSVSerde'  
WITH SERDEPROPERTIES (  
  'quoteChar'='\"',     
  'separatorChar'=',')  
STORED AS INPUTFORMAT   
  'org.apache.hadoop.mapred.TextInputFormat'    
OUTPUTFORMAT    
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
LOCATION    
  '/tmp/dummy'  
TBLPROPERTIES ( 
  'COLUMN_STATS_ACCURATE'='false',  
  'numFiles'='1',   
  'numRows'='-1',   
  'rawDataSize'='-1',   
  'skip.header.line.count'='1')

csv文件

name,age
abc,10

输出色调

+----++----+
|name| age | 
+----++----+
|abc | 10  |
+----++----+

Spark输出
sparksession.table（'dummy'）.show（）

+----++----+
|name| age | 
+----++----+
|name| age | 
+----++----+
|abc | 10  |
+----++----+

spark的预期输出

+----++----+
|name| age | 
+----++----+
|abc | 10  |
+----++----+

Hive pyspark cloudera-cdh

来源：https://stackoverflow.com/questions/55829582/extra-header-is-coming-while-reading-hive-external-table-from-spark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

从spark读取配置单元外部表时额外的头文件来了？

暂无答案！

相关问题

热门标签

最新问答