我是新来的Hive和检查执行计划(解释)为复杂的查询,其中有子查询,连接多个表和行数与聚合函数。正在尝试为查询计算map reduce任务的分配。所以我有几个问题1.map reduce任务的分配是否取决于表的大小/连接的数量?2.每次我都会得到相同数量的Map并减少?。3.你能让我知道为查询分配map reduce的逻辑吗。
vwoqyblh1#
因此,输入分割是一个逻辑实体,而块是一个物理实体。假设您从hdfs获取数据,map reduce client计算检查整个记录是否驻留在同一块中,如果它的某个部分存在于另一块中,则输入split捕获位置信息,以及下一块的字节偏移量,以便完成记录。这通常发生在多行记录中,输入拆分的大小配置与块大小相同。一个输入分割表示将进入一个Map器的数据的大小。
1条答案
按热度按时间vwoqyblh1#
因此,输入分割是一个逻辑实体,而块是一个物理实体。假设您从hdfs获取数据,map reduce client计算检查整个记录是否驻留在同一块中,如果它的某个部分存在于另一块中,则输入split捕获位置信息,以及下一块的字节偏移量,以便完成记录。这通常发生在多行记录中,输入拆分的大小配置与块大小相同。一个输入分割表示将进入一个Map器的数据的大小。