pyspark automation创建变量以在模式%%local中使用

ru9i0ody  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(188)

我正在使用带有pyspark3内核的aws emr笔记本,想知道如何创建几个Dataframe以在本地模式下访问?
如果我这样做了:

%%spark -o df_a
df_a = df.groupBy(a).count().orderBy('count')

这个 df_a 可在本地模式下访问。但现在我想对Dataframe中的所有列执行相同的操作。
如何自动创建如上所述的Dataframe?我试过:

cols = df.columns
for c in cols:
    print(c)
    var_name = 'hist_{}'.format(c)
    %%spark -o globals()[var_name]
    globals()[var_name] = df.groupBy(c).count().orderBy('count')

但收到以下错误:

invalid syntax (<stdin>, line 5)
  File "<stdin>", line 5
    %%spark -o globals()[var_name]
    ^
SyntaxError: invalid syntax

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题