从s3读取到spark时过滤数据

iq0todco 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(365)

我们正在转向aws emr/s3并使用 R 用于分析( sparklyr 图书馆）。我们在s3中有500gb的销售数据，其中包含多个产品的记录。我们想分析两个产品的数据，并且只想将文件的子集读取到emr中。
到目前为止我的理解是 spark_read_csv 将获取所有数据。有办法进去吗 R/Python/Hive 只读取我们感兴趣的产品的数据？

Hive pyspark amazon-emr r sparklyr

来源：https://stackoverflow.com/questions/50611760/filtering-data-while-reading-from-s3-to-spark

1条答案

按热度按时间

hujrc8aj1#

简言之，格式的选择与有效频谱相反。
使用数据
分区者( partitionBy 选择 DataFrameWriter 或正确的目录结构）列。
聚集依据( bucketBy 选择 DataFrameWriter 和持久元存储）。
在某些情况下，可以帮助将搜索范围缩小到特定分区，但如果 filter(product == p1) 是高度选择性的，那么你很可能看错了工具。
根据要求：
一个合适的数据库。
hadoop上的数据仓库。
也许是个更好的选择。
您还应该考虑选择更好的存储格式（如Parquet地板）。

赞(0）回复(0）举报 2021-06-26

我来回答

从s3读取到spark时过滤数据

1条答案

相关问题

热门标签

最新问答