除了pyspark,我还需要使用普通的python吗?或者pyspark拥有我所需要的一切?

2izufjch  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(357)

我的公司正在使用hadoop和spark进行机器学习。我知道python在库中非常全面,但是当我们切换到pyspark时,如果我们需要pyspark中还没有的东西呢?另外,继续使用python可能更容易,因为我已经知道python了。所以:
我能在spark中运行我的普通python代码并且仍然获得所有的好处,比如速度吗?
人们是只使用pyspark还是同时使用普通python和pyspark?
你能把它们混合在一起,用python编写部分代码,用pyspark编写部分代码吗?

i2loujxw

i2loujxw1#

Pyspark 或多或少是一个函数库,可以在python之上使用。
你仍然可以运行你的python代码,他们不会从中受益 spark 不过(因为你不会使用 pyspark 库、对象…)
将要操纵的对象是pyspark对象( RDD , dataframes , datasets ),因此不能像不能混合操作一样混合操作 pandas 和其他事情。您将能够使用python创建udf(用户定义函数),然后可以将其应用于您的应用程序的每一行 RDD , dataframe (就像 mappandas )
有几种方法可以将pyspark对象转换为其他python对象( list , pandas dataframe , json …)当它小到足以把它带到司机的记忆。

相关问题