使用apachespark流和dataframes交互搜索Parquet存储的数据

qoefvg9y  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(346)

我在hadoop hdfs上存储了大量的数据作为Parquet文件,我正在使用spark streaming以交互方式接收来自web服务器的查询,并将接收到的查询转换为sql,以便使用sparksql在我的数据上运行。
在这个过程中,我需要运行几个sql查询,然后通过合并或减去单个查询的结果来返回一些聚合结果。
有没有什么方法可以优化和提高进程的速度,例如,对已经收到的Dataframe而不是整个数据库运行查询?
有没有更好的方法以交互方式查询Parquet地板存储的数据并给出结果?
谢谢您!

xesrikrc

xesrikrc1#

如果在同一个rdd上运行多个查询,则在查询rdd之前使用.cache()缓存rdd,可以提高性能。
另外,你确定apachespark是合适的工具吗?从您描述的交互式查询来看,impala或presto可能更合适。

相关问题