表有限数据提取慢速连接

z0qdvdin  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(455)

我在tableau中设计可视化,我的数据在hive/hadoop中,数据量很大,
当我试图设计可视化时,查询运行得非常慢,因为每次它都试图从hadoop中提取数据。
所以对于任何一个可视化,它通常需要4分钟的简单拖放和可视化可能有10秒的拖放,所以我结束了大量的时间等待。我尝试使用数据提取选项,但是数据提取要花很长时间(38分钟,而且还在继续)
问:有没有办法我只能提取1000条记录,这样我就可以在这1000条记录上创建viz,然后在设计完成后切换到实时连接。我试着寻找社区的帮助,但到目前为止没有运气

x0fgdtte

x0fgdtte1#

一个选项可能是关闭“自动更新”,以便它不会在每次拖放时重新加载数据:
https://onlinehelp.tableau.com/current/pro/desktop/en-us/queries_autoupdates.html
你可以尝试的另一件事是以下几点。在hive中,您可以创建一个只有1000行的较小版本的表。然后在表上创建一个视图,并将tableau指向该视图。根据视图设计viz,完成后在hive中重新创建视图以指向真实的表。这可能会有所帮助,但如果Hive试图为每次拖放启动一个map-reduce任务,它仍然会非常缓慢。
根据我对tableau的经验,您希望将数据集缩小到可以使用extract选项的大小。任何与hive有实时连接的交互式 Jmeter 板都会很慢。但是,如果您可以将数据集聚合到一个可管理的大小,那么如果您执行提取,它就可以非常好地工作。我不再使用tableau了,但是在过去,我用了30-60分钟刷新和加载数百万行的摘录,效果很好。

dly7yett

dly7yett2#

复制xl中的所有数据,将我的表格与xl连接起来,并在几分钟内完成我的dahsboard,由于xl和hive具有完全相同的字段,我可以用hive替换xl连接,它就工作了。它抱怨的计算领域的一些表,但我想我可以重做的一部分,Hive和四处走动。

相关问题