我正在使用带有pyspark3内核的aws emr笔记本,想知道如何创建几个Dataframe以在本地模式下访问?
如果我这样做了:
%%spark -o df_a
df_a = df.groupBy(a).count().orderBy('count')
这个 df_a
可在本地模式下访问。但现在我想对Dataframe中的所有列执行相同的操作。
如何自动创建如上所述的Dataframe?我试过:
cols = df.columns
for c in cols:
print(c)
var_name = 'hist_{}'.format(c)
%%spark -o globals()[var_name]
globals()[var_name] = df.groupBy(c).count().orderBy('count')
但收到以下错误:
invalid syntax (<stdin>, line 5)
File "<stdin>", line 5
%%spark -o globals()[var_name]
^
SyntaxError: invalid syntax
暂无答案!
目前还没有任何答案,快来回答吧!