我曾经使用过从SparkSession(通过www.example.com)创建的Dataframespark.read,在那里我可以使用printSchema()打印dataframe的模式。
然而,当我从Pandas创建一个数据框时,我得到了使用这个方法的错误。错误消息在底部。
问题:
1.我可以在这里使用什么来获取 Dataframe 的模式
1.从pandas创建的dataframe属性是否与从SparkSession创建的不同?错误消息:*
追溯(最近调用最后调用):File“/Users/gautamde/code/df_pd.py”,line 6,in print(df.printSchema())File“/Users/gautamde/opt/anaconda3/lib/python3.9/site-packages/pandas/core/generic.py“,line 5487,in getattr return object.getattribute(self,name)AttributeError:“DataFrame”对象没有属性“printSchema”
谢谢大家。
1条答案
按热度按时间vecaoik11#
1.您可以使用
df.info
来获取pandas DataFrame的模式。1.是的,pandas DataFrame和Spark DataFrame是有区别的。Spark DataFrame上甚至还有一个pandas。