我的公司正在使用hadoop和spark进行机器学习。我知道python在库中非常全面,但是当我们切换到pyspark时,如果我们需要pyspark中还没有的东西呢?另外,继续使用python可能更容易,因为我已经知道python了。所以:我能在spark中运行我的普通python代码并且仍然获得所有的好处,比如速度吗?人们是只使用pyspark还是同时使用普通python和pyspark?你能把它们混合在一起,用python编写部分代码,用pyspark编写部分代码吗?
i2loujxw1#
Pyspark 或多或少是一个函数库,可以在python之上使用。你仍然可以运行你的python代码,他们不会从中受益 spark 不过(因为你不会使用 pyspark 库、对象…)将要操纵的对象是pyspark对象( RDD , dataframes , datasets ),因此不能像不能混合操作一样混合操作 pandas 和其他事情。您将能够使用python创建udf(用户定义函数),然后可以将其应用于您的应用程序的每一行 RDD , dataframe (就像 map 在 pandas )有几种方法可以将pyspark对象转换为其他python对象( list , pandas dataframe , json …)当它小到足以把它带到司机的记忆。
Pyspark
spark
pyspark
RDD
dataframes
datasets
pandas
dataframe
map
list
pandas dataframe
json
1条答案
按热度按时间i2loujxw1#
Pyspark
或多或少是一个函数库,可以在python之上使用。你仍然可以运行你的python代码,他们不会从中受益
spark
不过(因为你不会使用pyspark
库、对象…)将要操纵的对象是pyspark对象(
RDD
,dataframes
,datasets
),因此不能像不能混合操作一样混合操作pandas
和其他事情。您将能够使用python创建udf(用户定义函数),然后可以将其应用于您的应用程序的每一行RDD
,dataframe
(就像map
在pandas
)有几种方法可以将pyspark对象转换为其他python对象(
list
,pandas dataframe
,json
…)当它小到足以把它带到司机的记忆。