从s3读取到spark时过滤数据

iq0todco  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(365)

我们正在转向aws emr/s3并使用 R 用于分析( sparklyr 图书馆)。我们在s3中有500gb的销售数据,其中包含多个产品的记录。我们想分析两个产品的数据,并且只想将文件的子集读取到emr中。
到目前为止我的理解是 spark_read_csv 将获取所有数据。有办法进去吗 R/Python/Hive 只读取我们感兴趣的产品的数据?

hujrc8aj

hujrc8aj1#

简言之,格式的选择与有效频谱相反。
使用数据
分区者( partitionBy 选择 DataFrameWriter 或正确的目录结构)列。
聚集依据( bucketBy 选择 DataFrameWriter 和持久元存储)。
在某些情况下,可以帮助将搜索范围缩小到特定分区,但如果 filter(product == p1) 是高度选择性的,那么你很可能看错了工具。
根据要求:
一个合适的数据库。
hadoop上的数据仓库。
也许是个更好的选择。
您还应该考虑选择更好的存储格式(如Parquet地板)。

相关问题