我们正在转向aws emr/s3并使用 R 用于分析( sparklyr 图书馆)。我们在s3中有500gb的销售数据,其中包含多个产品的记录。我们想分析两个产品的数据,并且只想将文件的子集读取到emr中。到目前为止我的理解是 spark_read_csv 将获取所有数据。有办法进去吗 R/Python/Hive 只读取我们感兴趣的产品的数据?
R
sparklyr
spark_read_csv
R/Python/Hive
hujrc8aj1#
简言之,格式的选择与有效频谱相反。使用数据分区者( partitionBy 选择 DataFrameWriter 或正确的目录结构)列。聚集依据( bucketBy 选择 DataFrameWriter 和持久元存储)。在某些情况下,可以帮助将搜索范围缩小到特定分区,但如果 filter(product == p1) 是高度选择性的,那么你很可能看错了工具。根据要求:一个合适的数据库。hadoop上的数据仓库。也许是个更好的选择。您还应该考虑选择更好的存储格式(如Parquet地板)。
partitionBy
DataFrameWriter
bucketBy
filter(product == p1)
1条答案
按热度按时间hujrc8aj1#
简言之,格式的选择与有效频谱相反。
使用数据
分区者(
partitionBy
选择DataFrameWriter
或正确的目录结构)列。聚集依据(
bucketBy
选择DataFrameWriter
和持久元存储)。在某些情况下,可以帮助将搜索范围缩小到特定分区,但如果
filter(product == p1)
是高度选择性的,那么你很可能看错了工具。根据要求:
一个合适的数据库。
hadoop上的数据仓库。
也许是个更好的选择。
您还应该考虑选择更好的存储格式(如Parquet地板)。