combineinputformat在hive中如何工作？

yyyllmsg 于 2021-06-26 发布在 Hive

关注(0)|答案(2)|浏览(358)

我有一个具有以下属性的配置单元表
文本文件格式
未分区
解开的
有50个文件，每个3.5 mb
遵循“描述格式化”命令中的表参数
表参数：

COLUMN_STATS_ACCURATE   true
    numFiles                50
    totalSize               170774650

我正在这个表上执行计数（*）操作，它正在运行
aws集群上有4个Map器和1个还原器
我的独立集群上有1个Map器和1个缩减器。[伪集群模式安装]
两个配置单元会话的最大拆分大小均为256mb
我想知道联合输入格式是如何工作的？
在一台机器上，由于所有文件/块都在同一台机器上，并且由于组合在一起的文件的总大小小于最大拆分大小，因此需要单个拆分，因此需要单个Map器。
在另一种情况下，aws集群产生了4个Map器。我读到combineinputformat使用机架/机器位置，但具体是如何使用的？
谢谢你提前回答。

Hive apache combiners

来源：https://stackoverflow.com/questions/43303558/how-does-combineinputformat-works-in-hive

2条答案

按热度按时间

ljo96ir51#

只是想跟进一下。
拆分不能有来自不同池的文件。
可能还有其他因素，但每个分区只有一个池。如果两个小文件存在于同一个分区中，它们将被合并，并且只需要一个Map器；如果相同的文件存在于不同的分区中，则需要两个Map器来处理。

赞(0）回复(0）举报 2021-06-26

6ss1mwsb2#

好啊！没有回复！！！随着时间的推移，我发现了它，今天访问我的堆栈溢出帐户，发现这个不幸的问题没有得到回答。下面是细节。
拆分是从输入路径下的文件构造的。拆分不能有来自不同池的文件。返回的每个分割可能包含来自不同文件的块。如果指定了maxsplitsize，则将同一节点上的块组合起来形成单个拆分。剩余的块然后与同一机架中的其他块合并。如果未指定maxsplitsize，则来自同一机架的块组合在单个拆分中；未尝试创建节点本地拆分。如果maxsplitsize等于块大小，那么这个类类似于hadoop中的默认拆分行为：每个块都是本地处理的拆分。子类实现inputformat.createrecordreader（inputsplit，taskattemptcontext）为combinefilesplit构造recordreader。
希望对有类似问题的人有所帮助！

赞(0）回复(0）举报 2021-06-26

我来回答

combineinputformat在hive中如何工作？

2条答案

相关问题

热门标签

最新问答