将多个excel文件导入python pandas并将它们连接到一个 Dataframe 中

6rvt4ljy 于 2023-05-12 发布在 Python

关注(0)|答案(8)|浏览(137)

我想从一个目录中读取几个excel文件到pandas中，并将它们连接到一个大的数据框中。但我一直没能弄明白。我需要一些关于for循环和构建级联 Dataframe 的帮助：以下是我到目前为止所做的：

import sys
import csv
import glob
import pandas as pd

# get data file names
path =r'C:\DRO\DCL_rawdata_files\excelfiles'
filenames = glob.glob(path + "/*.xlsx")

dfs = []

for df in dfs: 
    xl_file = pd.ExcelFile(filenames)
    df=xl_file.parse('Sheet1')
    dfs.concat(df, ignore_index=True)

pandas

来源：https://stackoverflow.com/questions/20908018/import-multiple-excel-files-into-python-pandas-and-concatenate-them-into-one-dat

8条答案

按热度按时间

30byixjq1#

正如在注解中提到的，您正在犯的一个错误是您正在遍历一个空列表。
下面是我将如何做到这一点，使用一个例子，有5个相同的Excel文件，一个接一个地追加。

（1）进口：

import os
import pandas as pd

（2）列表文件：

path = os.getcwd()
files = os.listdir(path)
files

输出：

['.DS_Store',
 '.ipynb_checkpoints',
 '.localized',
 'Screen Shot 2013-12-28 at 7.15.45 PM.png',
 'test1 2.xls',
 'test1 3.xls',
 'test1 4.xls',
 'test1 5.xls',
 'test1.xls',
 'Untitled0.ipynb',
 'Werewolf Modelling',
 '~$Random Numbers.xlsx']

（3）挑选'xls'文件：

files_xls = [f for f in files if f[-3:] == 'xls']
files_xls

输出：

['test1 2.xls', 'test1 3.xls', 'test1 4.xls', 'test1 5.xls', 'test1.xls']

（4）初始化空数据框：

df = pd.DataFrame()

（5）遍历要追加到空 Dataframe 的文件列表：

for f in files_xls:
    data = pd.read_excel(f, 'Sheet1')
    df = df.append(data)

（6）享受您的新 Dataframe 。：—）

df

输出：

Result  Sample
0      a       1
1      b       2
2      c       3
3      d       4
4      e       5
5      f       6
6      g       7
7      h       8
8      i       9
9      j      10
0      a       1
1      b       2
2      c       3
3      d       4
4      e       5
5      f       6
6      g       7
7      h       8
8      i       9
9      j      10
0      a       1
1      b       2
2      c       3
3      d       4
4      e       5
5      f       6
6      g       7
7      h       8
8      i       9
9      j      10
0      a       1
1      b       2
2      c       3
3      d       4
4      e       5
5      f       6
6      g       7
7      h       8
8      i       9
9      j      10
0      a       1
1      b       2
2      c       3
3      d       4
4      e       5
5      f       6
6      g       7
7      h       8
8      i       9
9      j      10

赞(0）回复(0）举报 2023-05-12

wydwbb8l2#

这适用于python 2.x
位于Excel文件所在的目录中
参见http://pbpython.com/excel-file-combine.html

import numpy as np
import pandas as pd
import glob
all_data = pd.DataFrame()
for f in glob.glob("*.xlsx"):
    df = pd.read_excel(f)
    all_data = all_data.append(df,ignore_index=True)

# now save the data frame
writer = pd.ExcelWriter('output.xlsx')
all_data.to_excel(writer,'sheet1')
writer.save()

赞(0）回复(0）举报 2023-05-12

06odsfpq3#

你可以在concat中使用列表解析：

import os
import pandas as pd

path = '/path/to/directory/'
filenames = [file for file in os.listdir(path) if file.endswith('.xlsx')]

df = pd.concat([pd.read_excel(path + file) for file in filenames], ignore_index=True)

对于ignore_index = True，df的索引将被标记为 0，...，n - 1。

赞(0）回复(0）举报 2023-05-12

bjp0bcyl4#

有一个更简洁的方法来做到这一点。

# import libraries
import glob
import pandas as pd

# get the absolute path of all Excel files 
allExcelFiles = glob.glob("/path/to/Excel/files/*.xlsx")

# read all Excel files at once
df = pd.concat(pd.read_excel(excelFile) for excelFile in allExcelFiles)

赞(0）回复(0）举报 2023-05-12

irlmq6kh5#

这可以通过以下方式完成：

import pandas as pd
import glob

all_data = pd.DataFrame()
for f in glob.glob("/path/to/directory/*.xlsx"):
    df = pd.read_excel(f)
    all_data = all_data.append(df,ignore_index=True)

all_data.to_csv("new_combined_file.csv")

赞(0）回复(0）举报 2023-05-12

pzfprimi6#

快捷方式

import pandas as pd 
from glob import glob

dfs=[]
for f in glob("data/*.xlsx"):
    dfs.append(pd.read_excel(f))
df=pd.concat(dfs, ignore_index=True)

赞(0）回复(0）举报 2023-05-12

z5btuh9x7#

import pandas as pd

import os

os.chdir('...')

#read first file for column names

fdf= pd.read_excel("first_file.xlsx", sheet_name="sheet_name")

#create counter to segregate the different file's data

fdf["counter"]=1

nm= list(fdf)

c=2

#read first 1000 files

for i in os.listdir():

  print(c)

  if c<1001:

    if "xlsx" in i:

      df= pd.read_excel(i, sheet_name="sheet_name")

      df["counter"]=c

      if list(df)==nm:

        fdf=fdf.append(df)

        c+=1

      else:

        print("headers name not match")

    else:

      print("not xlsx")

fdf=fdf.reset_index(drop=True)

#relax

赞(0）回复(0）举报 2023-05-12

2lpgd9688#

import pandas as pd
import os

files = [file for file in os.listdir('./Salesfolder')]
all_month_sales= pd.DataFrame()
for file in files
    df= pd.read_csv("./Salesfolder/"+file)
    all_months_data=pd.concat([all_months_sales,df])
all_months_data.to_csv("all_data.csv",index=False)

你可以从文件夹（我的例子是Salesfolder）读取所有的.xls文件，本地路径也是一样。使用迭代，通过whcih你可以把它们放入空的数据框，你可以concatnate你的数据框到这个。我还出口到另一个csv为所有月份的数据到一个csv文件

赞(0）回复(0）举报 2023-05-12

我来回答

将多个excel文件导入python pandas并将它们连接到一个 Dataframe 中

8条答案

快捷方式

相关问题

热门标签

最新问答