使用apachespark流和dataframes交互搜索Parquet存储的数据

qoefvg9y 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(346)

我在hadoop hdfs上存储了大量的数据作为Parquet文件，我正在使用spark streaming以交互方式接收来自web服务器的查询，并将接收到的查询转换为sql，以便使用sparksql在我的数据上运行。
在这个过程中，我需要运行几个sql查询，然后通过合并或减去单个查询的结果来返回一些聚合结果。
有没有什么方法可以优化和提高进程的速度，例如，对已经收到的Dataframe而不是整个数据库运行查询？
有没有更好的方法以交互方式查询Parquet地板存储的数据并给出结果？
谢谢您！

hadoop apache-spark apache-spark-sql parquet spark-streaming

来源：https://stackoverflow.com/questions/32826886/interactively-search-parquet-stored-data-using-apache-spark-streaming-and-datafr