配置单元为java.io.ioexception的orc文件:两个读取器

osh3o9ms  于 2021-06-24  发布在  Hive
关注(0)|答案(2)|浏览(407)

我有一个acid hive表,里面有orc格式的文件。尝试压缩时,出现以下错误: Task: ... exited : java.io.IOException: Two readers for ... 完全错误如下:

2019-06-03 07:01:05,357 ERROR [IPC Server handler 2 on 41085] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1558939181485_29861_m_000001_0 - exited : java.io.IOException: Two readers for {originalWriteId: 143, bucket: 536870912(1.0.0), row: 3386, currentWriteId 210}: new [key={originalWriteId: 143, bucket: 536870912(1.0.0), row: 3386, currentWriteId 210}, nextRecord={2, 143, 536870912, 3386, 210, null}, reader=Hive ORC Reader(hdfs://HdfsNameService/tbl/delete_delta_0000209_0000214/bucket_00001, 9223372036854775807)], old [key={originalWriteId: 143, bucket: 536870912(1.0.0), row: 3386, currentWriteId 210}, nextRecord={2, 143, 536870912, 3386, 210, null}, reader=Hive ORC Reader(hdfs://HdfsNameService/tbl/delete_delta_0000209_0000214/bucket_00000, 9223372036854775807)]
    at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger.ensurePutReader(OrcRawRecordMerger.java:1171)
    at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger.<init>(OrcRawRecordMerger.java:1126)
    at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getRawReader(OrcInputFormat.java:2402)
    at org.apache.hadoop.hive.ql.txn.compactor.CompactorMR$CompactorMap.map(CompactorMR.java:964)
    at org.apache.hadoop.hive.ql.txn.compactor.CompactorMR$CompactorMap.map(CompactorMR.java:941)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:54)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:465)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:349)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:174)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1730)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:168)

此表由创建和更新 merge “将avro文件放入orc表中,因此产生了一堆delta,两者都是 delete_delta 以及 delta .
我有许多其他这样的表,它们没有这个问题。这个表没有什么不寻常的地方,实际上非常小(<10万行,磁盘上有2.5米),在上个月更新了100次(20万行更新,5米更新数据)。ddl是:

CREATE TABLE `contact_group`(
  `id` bigint,
  `license_name` string,
  `campaign_id` bigint,
  `name` string,
  `is_system` boolean,
  `is_test` boolean,
  `is_active` boolean,
  `remarks` string,
  `updated_on_utc` timestamp,
  `created_on_utc` timestamp,
  `deleted_on_utc` timestamp,
  `sys_schema_version` int,
  `sys_server_ipv4` bigint,
  `sys_server_name` string,
  `load_ts` timestamp)
ROW FORMAT SERDE
  'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS INPUTFORMAT
  'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION
  'hdfs://HdfsNameService/dwh/vault/contact_group'
TBLPROPERTIES (
  'bucketing_version'='2',
  'last_modified_by'='hive',
  'last_modified_time'='1553512639',
  'transactional'='true',
  'transactional_properties'='default',
  'transient_lastDdlTime'='1559522011')

这种情况每隔几个月就会发生一次。由于其他一切(select、merge)都能正常工作,修复方法通常是创建第二个表( create table t as select * from contact_group )我想找出真正的原因。
我找到的关于我的错误的唯一参考是代码本身,这对我帮助不大。
这是在hdp3.1上,有Hive3。

ovfsdjhp

ovfsdjhp1#

我也遇到过这个问题。通过orc工具,我扫描了delete\u delta下的所有文件,可以发现这些文件中的所有行都是相同的(例如,bucket\u00000中有7行,因此,在迭代下一个bucket文件时,键(originaltransacion bucket rowid currentwriteid)将是相同的。
另一个解决方法是将表创建为bucket,也许可以避免这个问题。

yizd12fk

yizd12fk2#

在我的例子中,它是由用户错误引起的。它是由引用同一hdfs目录的两个表引起的。创建表时,我创建了位置名,并意外地将同一目录复制到另一个表中。
然后,我的程序对两个事务表执行更改,导致无法解析增量文件。

相关问题