我有一个acid hive表,里面有orc格式的文件。尝试压缩时,出现以下错误: Task: ... exited : java.io.IOException: Two readers for ...
完全错误如下:
2019-06-03 07:01:05,357 ERROR [IPC Server handler 2 on 41085] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1558939181485_29861_m_000001_0 - exited : java.io.IOException: Two readers for {originalWriteId: 143, bucket: 536870912(1.0.0), row: 3386, currentWriteId 210}: new [key={originalWriteId: 143, bucket: 536870912(1.0.0), row: 3386, currentWriteId 210}, nextRecord={2, 143, 536870912, 3386, 210, null}, reader=Hive ORC Reader(hdfs://HdfsNameService/tbl/delete_delta_0000209_0000214/bucket_00001, 9223372036854775807)], old [key={originalWriteId: 143, bucket: 536870912(1.0.0), row: 3386, currentWriteId 210}, nextRecord={2, 143, 536870912, 3386, 210, null}, reader=Hive ORC Reader(hdfs://HdfsNameService/tbl/delete_delta_0000209_0000214/bucket_00000, 9223372036854775807)]
at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger.ensurePutReader(OrcRawRecordMerger.java:1171)
at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger.<init>(OrcRawRecordMerger.java:1126)
at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getRawReader(OrcInputFormat.java:2402)
at org.apache.hadoop.hive.ql.txn.compactor.CompactorMR$CompactorMap.map(CompactorMR.java:964)
at org.apache.hadoop.hive.ql.txn.compactor.CompactorMR$CompactorMap.map(CompactorMR.java:941)
at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:54)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:465)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:349)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:174)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1730)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:168)
此表由创建和更新 merge
“将avro文件放入orc表中,因此产生了一堆delta,两者都是 delete_delta
以及 delta
.
我有许多其他这样的表,它们没有这个问题。这个表没有什么不寻常的地方,实际上非常小(<10万行,磁盘上有2.5米),在上个月更新了100次(20万行更新,5米更新数据)。ddl是:
CREATE TABLE `contact_group`(
`id` bigint,
`license_name` string,
`campaign_id` bigint,
`name` string,
`is_system` boolean,
`is_test` boolean,
`is_active` boolean,
`remarks` string,
`updated_on_utc` timestamp,
`created_on_utc` timestamp,
`deleted_on_utc` timestamp,
`sys_schema_version` int,
`sys_server_ipv4` bigint,
`sys_server_name` string,
`load_ts` timestamp)
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION
'hdfs://HdfsNameService/dwh/vault/contact_group'
TBLPROPERTIES (
'bucketing_version'='2',
'last_modified_by'='hive',
'last_modified_time'='1553512639',
'transactional'='true',
'transactional_properties'='default',
'transient_lastDdlTime'='1559522011')
这种情况每隔几个月就会发生一次。由于其他一切(select、merge)都能正常工作,修复方法通常是创建第二个表( create table t as select * from contact_group
)我想找出真正的原因。
我找到的关于我的错误的唯一参考是代码本身,这对我帮助不大。
这是在hdp3.1上,有Hive3。
2条答案
按热度按时间ovfsdjhp1#
我也遇到过这个问题。通过orc工具,我扫描了delete\u delta下的所有文件,可以发现这些文件中的所有行都是相同的(例如,bucket\u00000中有7行,因此,在迭代下一个bucket文件时,键(originaltransacion bucket rowid currentwriteid)将是相同的。
另一个解决方法是将表创建为bucket,也许可以避免这个问题。
yizd12fk2#
在我的例子中,它是由用户错误引起的。它是由引用同一hdfs目录的两个表引起的。创建表时,我创建了位置名,并意外地将同一目录复制到另一个表中。
然后,我的程序对两个事务表执行更改,导致无法解析增量文件。