我有一个非常简单的csv文件。通过以下方式将记录加载到pandas框架中非常容易。然而,我真正需要的是将其加载到spark框架中。
如何直接使用StringIO(f.read())将记录直接放入spark对象框架中,而不是将df_pandas转换为df_spark?
非常感谢您!
f = open("C:\\myfolder\\test.csv", "r")
df_pandas = pd.read_csv(StringIO(f.read()), sep=";")
#df_spark = spark.read.csv(StringIO(f.read())) # this doesn't work
f.close()
字符串
1条答案
按热度按时间vof42yt11#
Spark SQL提供了
spark.read().csv("filePath")
来将CSV格式的文件或文件目录读取到Spark DataFrame中。您需要将
StringIO(f.read())
的结果保存保存到一个文件中并获取它的路径。