我有一个acid hive表，里面有orc格式的文件。尝试压缩时，出现以下错误： Task: ... exited : java.io.IOException: Two readers for ... 完全错误如下：

2019-06-03 07:01:05,357 ERROR [IPC Server handler 2 on 41085] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1558939181485_29861_m_000001_0 - exited : java.io.IOException: Two readers for {originalWriteId: 143, bucket: 536870912(1.0.0), row: 3386, currentWriteId 210}: new [key={originalWriteId: 143, bucket: 536870912(1.0.0), row: 3386, currentWriteId 210}, nextRecord={2, 143, 536870912, 3386, 210, null}, reader=Hive ORC Reader(hdfs://HdfsNameService/tbl/delete_delta_0000209_0000214/bucket_00001, 9223372036854775807)], old [key={originalWriteId: 143, bucket: 536870912(1.0.0), row: 3386, currentWriteId 210}, nextRecord={2, 143, 536870912, 3386, 210, null}, reader=Hive ORC Reader(hdfs://HdfsNameService/tbl/delete_delta_0000209_0000214/bucket_00000, 9223372036854775807)]
    at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger.ensurePutReader(OrcRawRecordMerger.java:1171)
    at org.apache.hadoop.hive.ql.io.orc.OrcRawRecordMerger.<init>(OrcRawRecordMerger.java:1126)
    at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.getRawReader(OrcInputFormat.java:2402)
    at org.apache.hadoop.hive.ql.txn.compactor.CompactorMR$CompactorMap.map(CompactorMR.java:964)
    at org.apache.hadoop.hive.ql.txn.compactor.CompactorMR$CompactorMap.map(CompactorMR.java:941)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:54)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:465)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:349)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:174)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1730)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:168)

此表由创建和更新 merge “将avro文件放入orc表中，因此产生了一堆delta，两者都是 delete_delta 以及 delta .
我有许多其他这样的表，它们没有这个问题。这个表没有什么不寻常的地方，实际上非常小（<10万行，磁盘上有2.5米），在上个月更新了100次（20万行更新，5米更新数据）。ddl是：

CREATE TABLE `contact_group`(
  `id` bigint,
  `license_name` string,
  `campaign_id` bigint,
  `name` string,
  `is_system` boolean,
  `is_test` boolean,
  `is_active` boolean,
  `remarks` string,
  `updated_on_utc` timestamp,
  `created_on_utc` timestamp,
  `deleted_on_utc` timestamp,
  `sys_schema_version` int,
  `sys_server_ipv4` bigint,
  `sys_server_name` string,
  `load_ts` timestamp)
ROW FORMAT SERDE
  'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS INPUTFORMAT
  'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION
  'hdfs://HdfsNameService/dwh/vault/contact_group'
TBLPROPERTIES (
  'bucketing_version'='2',
  'last_modified_by'='hive',
  'last_modified_time'='1553512639',
  'transactional'='true',
  'transactional_properties'='default',
  'transient_lastDdlTime'='1559522011')

这种情况每隔几个月就会发生一次。由于其他一切（select、merge）都能正常工作，修复方法通常是创建第二个表( create table t as select * from contact_group )我想找出真正的原因。
我找到的关于我的错误的唯一参考是代码本身，这对我帮助不大。
这是在hdp3.1上，有Hive3。

2条答案

按热度按时间

ovfsdjhp1#

我也遇到过这个问题。通过orc工具，我扫描了delete\u delta下的所有文件，可以发现这些文件中的所有行都是相同的（例如，bucket\u00000中有7行，因此，在迭代下一个bucket文件时，键（originaltransacion bucket rowid currentwriteid）将是相同的。
另一个解决方法是将表创建为bucket，也许可以避免这个问题。

赞(0）回复(0）举报 2021-06-24

yizd12fk2#

在我的例子中，它是由用户错误引起的。它是由引用同一hdfs目录的两个表引起的。创建表时，我创建了位置名，并意外地将同一目录复制到另一个表中。
然后，我的程序对两个事务表执行更改，导致无法解析增量文件。

配置单元为java.io.ioexception的orc文件：两个读取器

2条答案

相关问题

热门标签

最新问答