apachespark:选择哪种数据存储和数据格式

mspsb9vt  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(257)

我要用spark编写一个销售分析应用程序。因此,我每天晚上都会得到一个delta数据集,其中包含新的销售数据(前一天的销售数据)。后来我想实现一些分析,如关联规则或流行的产品。
销售数据包含以下信息:
商店id
文章组
现金点时间戳
第G条
数量
价格
到目前为止,我用了一个简单的 .textFile 方法和RDD。我听说了一些关于dataframe和parquet的事情,这是一种类似于表格的文本文件数据格式,对吧?在数据库中存储一次数据(我在hadoop集群中安装了hbase),然后再阅读本文,怎么样?
有人能简要介绍一下spark中不同类型的保存/加载可能性吗?并给出如何使用这些数据的建议?
数据量实际上约为6GB,表示3个门店1年左右的数据量。稍后我将处理约500家商店的数据,时间周期约为5年。

rpppsulh

rpppsulh1#

您可以使用spark毫无问题地处理这些数据。您也可以从csv文件中读取(databricks中有一个库支持csv)。您可以对其进行操作,从rdd到将其转换为Dataframe,这是一个更近的步骤。您可以直接将最后一个Dataframe扔进hbase。您可以在此处找到所需的所有文档:http://spark.apache.org/docs/latest/sql-programming-guide.htmlhttps://www.mapr.com/blog/spark-streaming-hbase
干杯,亚历克斯

相关问题