我一直在使用select配置单元处理器从配置单元获取数据并创建csv文件。我观察了大约700万条记录,大约需要5分钟。仔细观察发现,从hive获取数据的速度更快,几乎不需要少于总时间的10%,但在csv中写入文件的时间太长。我使用8核和32gb内存。我已经配置了16gb的堆内存。有人能帮我改进一下吗?我需要进行系统级设置吗?
beq87vna1#
selecthiveql的csv输出选项当然可以改进,目前它将每一行构建为内存中的一个字符串,然后将其写入流文件,但它可能只是直接写入流文件,等等。请随时为这种改进提交jira。
1条答案
按热度按时间beq87vna1#
selecthiveql的csv输出选项当然可以改进,目前它将每一行构建为内存中的一个字符串,然后将其写入流文件,但它可能只是直接写入流文件,等等。请随时为这种改进提交jira。