我在配置单元中创建了一个外部表,并将csv放在外部表所指向的hdfs位置上。在签入色调时,表输出的格式是正确的,但是当我尝试使用spark读取同一个表时,Dataframe的第一行与header相同,即header被复制了两次。
cdh版本:hive 1.1.0-cdh5.13.1
ddl公司
CREATE EXTERNAL TABLE `dummy`(
name string,
age string
)
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
'quoteChar'='\"',
'separatorChar'=',')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
'/tmp/dummy'
TBLPROPERTIES (
'COLUMN_STATS_ACCURATE'='false',
'numFiles'='1',
'numRows'='-1',
'rawDataSize'='-1',
'skip.header.line.count'='1')
csv文件
name,age
abc,10
输出色调
+----++----+
|name| age |
+----++----+
|abc | 10 |
+----++----+
Spark输出
sparksession.table('dummy').show()
+----++----+
|name| age |
+----++----+
|name| age |
+----++----+
|abc | 10 |
+----++----+
spark的预期输出
+----++----+
|name| age |
+----++----+
|abc | 10 |
+----++----+
暂无答案!
目前还没有任何答案,快来回答吧!