为什么pythonDataframe只在同一台机器上本地化?

beq87vna  于 2021-05-27  发布在  Spark
关注(0)|答案(2)|浏览(497)

我正在阅读spark的权威指南,其中写道:
python/rDataframe存在于一台机器上,而不是多台机器上。。。这将限制您对给定Dataframe所能执行的操作,使其仅限于该特定计算机上存在的资源。。
因此,我想知道为什么python的Dataframe不能扩展到多台机器?如果这意味着python不是分布式的呢?
更新
python/r是否具有类似sparkscala/java的等效分布式Dataframe?dataframe

qnzebej0

qnzebej01#

pandas不允许您自己将datframe分发给多台机器。如果你有数据
内存(ram)
适合磁盘
因此,当您可以用一台机器处理数据时,它工作得很好。但是当数据和处理需求增长时,您希望迁移到存储和处理Dataframe的分布式/并行处理的库。Dataframe的概念在这些库中很常见,但实现不同,以提供分布式处理能力。两个很好的例子是
dask,它通常用于使用多个 cores / threadmultiprocessing/multitasking ,但也可以在分布式集群上运行良好。
apachespark主要用于多节点的集群模式,因此采用分布式数据处理框架(但也可在单机上使用)
更新:
是你问的
Dataframe的概念是非分布式的,而r和python则有其他的概念来进行分布式计算
dataframe不需要是非分布式的或分布式的,它是一个概念,dataframe是一个二维的数据结构,它的列可以有不同的类型,并且查询、总结和操作非常简单高效,因此被许多面向数据的编程范例和库所采用。因此,利用和操纵这些Dataframe可以分布式的方式来处理大数据。spark只是分布式数据处理框架的一个例子,它可以与包括r和python在内的许多语言一起使用

brjng4g3

brjng4g32#

例如,PandasDataframe不是分布式的。
声明说,Dataframe不是唯一的,有几个Dataframe的概念。尽管有许多概念,sparkDataframe是分布式的,但是其他的,即python和r不是。
这并不意味着pysparkDataframe。

相关问题