从spark读取配置单元外部表时额外的头文件来了?

4ioopgfo  于 2021-06-24  发布在  Hive
关注(0)|答案(0)|浏览(367)

我在配置单元中创建了一个外部表,并将csv放在外部表所指向的hdfs位置上。在签入色调时,表输出的格式是正确的,但是当我尝试使用spark读取同一个表时,Dataframe的第一行与header相同,即header被复制了两次。
cdh版本:hive 1.1.0-cdh5.13.1
ddl公司

CREATE EXTERNAL TABLE `dummy`(
  name string,
  age string
)
ROW FORMAT SERDE    
  'org.apache.hadoop.hive.serde2.OpenCSVSerde'  
WITH SERDEPROPERTIES (  
  'quoteChar'='\"',     
  'separatorChar'=',')  
STORED AS INPUTFORMAT   
  'org.apache.hadoop.mapred.TextInputFormat'    
OUTPUTFORMAT    
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
LOCATION    
  '/tmp/dummy'  
TBLPROPERTIES ( 
  'COLUMN_STATS_ACCURATE'='false',  
  'numFiles'='1',   
  'numRows'='-1',   
  'rawDataSize'='-1',   
  'skip.header.line.count'='1')

csv文件

name,age
abc,10

输出色调

+----++----+
|name| age | 
+----++----+
|abc | 10  |
+----++----+

Spark输出
sparksession.table('dummy').show()

+----++----+
|name| age | 
+----++----+
|name| age | 
+----++----+
|abc | 10  |
+----++----+

spark的预期输出

+----++----+
|name| age | 
+----++----+
|abc | 10  |
+----++----+

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题