我使用apache flink将数据直接写入orc格式的hdfs文件,以便hive tale读取。apache flink将在检查点时间之后将进行中的文件转换为finish状态。只有完成的文件对配置单元表可见。所以延迟将是检查点时间(在我的情况下是10分钟)。如果我们减少检查点时间来减少延迟,那么flink会创建太多的hdfs文件。那么如何在不创建太多文件的情况下减少延迟呢?
我使用apache flink将数据直接写入orc格式的hdfs文件,以便hive tale读取。apache flink将在检查点时间之后将进行中的文件转换为finish状态。只有完成的文件对配置单元表可见。所以延迟将是检查点时间(在我的情况下是10分钟)。如果我们减少检查点时间来减少延迟,那么flink会创建太多的hdfs文件。那么如何在不创建太多文件的情况下减少延迟呢?
1条答案
按热度按时间vmdwslir1#
你唯一能做的就是减少并行性。