apachespark加载内部文件夹

tf7tbtn2  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(268)
import findspark
findspark.init('C:\spark')
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

a = []
i=1880
while i<2018:
    a.append(str(i)+'/'+str(i)+'verr.csv')
    i = i+1

dataset1 = spark.read.format('csv').option('header','true').load('C://venq/uyh/'+ a)

我运行代码得到错误;dataset1=spark.read.format('csv').option('header','true').load('c://venq/uyh/'+a)typeerror:只能将str(而不是“list”)连接到str
我有一个“c:\venq\uyh\1880\1880\verr.csv”格式的循环。我在嵌套文件夹中有csv文件。我想把它们都读出来。但是我得到以下错误。我怎样才能解决这个问题?谢谢

w7t8yxp5

w7t8yxp51#

变量“a”是文件列表。 dataset1 = spark.read.format('csv').option('header','true').load('C://venq/uyh/'+ a) 在这里,您试图将字符串“c://venq/uyh/”与“a”连接起来,后者是一个列表,抛出错误。尝试

root = r"C://venq/uyh/"

while i<2018:
    a.append(root + str(i)+'/'+ str(i)+'verr.csv')
    i = i+1

然后直接使用 dataset1 = spark.read.format('csv').option('header','true').load(a)

相关问题