pyspark automation创建变量以在模式%%local中使用

ru9i0ody 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(188)

我正在使用带有pyspark3内核的aws emr笔记本，想知道如何创建几个Dataframe以在本地模式下访问？
如果我这样做了：

%%spark -o df_a
df_a = df.groupBy(a).count().orderBy('count')

这个 df_a 可在本地模式下访问。但现在我想对Dataframe中的所有列执行相同的操作。
如何自动创建如上所述的Dataframe？我试过：

cols = df.columns
for c in cols:
    print(c)
    var_name = 'hist_{}'.format(c)
    %%spark -o globals()[var_name]
    globals()[var_name] = df.groupBy(c).count().orderBy('count')

但收到以下错误：

invalid syntax (<stdin>, line 5)
  File "<stdin>", line 5
    %%spark -o globals()[var_name]
    ^
SyntaxError: invalid syntax

apache-spark pyspark

来源：https://stackoverflow.com/questions/61853340/pyspark-automation-to-create-variables-to-use-in-the-mode-local

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

pyspark automation创建变量以在模式%%local中使用

暂无答案！

相关问题

热门标签

最新问答