我有一个XML文件,如下所示:
<?xml version="1.0" encoding="utf-8"?>
<comments>
<row Id="1" PostId="2" Score="0" Text="(...)" CreationDate="2011-08-30T21:15:28.063" UserId="16" />
<row Id="2" PostId="17" Score="1" Text="(...)" CreationDate="2011-08-30T21:24:56.573" UserId="27" />
<row Id="3" PostId="26" Score="0" Text="(...)" UserId="9" />
</comments>
我正在尝试做的是提取ID,文本和CreationDate列到PandasDF,我已经尝试如下:
import xml.etree.cElementTree as et
import pandas as pd
path = '/.../...'
dfcols = ['ID', 'Text', 'CreationDate']
df_xml = pd.DataFrame(columns=dfcols)
root = et.parse(path)
rows = root.findall('.//row')
for row in rows:
ID = row.find('Id')
text = row.find('Text')
date = row.find('CreationDate')
print(ID, text, date)
df_xml = df_xml.append(pd.Series([ID, text, date], index=dfcols), ignore_index=True)
print(df_xml)
但输出结果是:
None None None
我该怎么解决这个问题?
4条答案
按热度按时间pes8fvy91#
正如金牌会员Python/pandas/numpy guru在此解决方案中建议的那样,@unutbu:
不要在for循环中调用DataFrame.append或pd.concat,这会导致二次复制。
因此,考虑将XML数据解析为一个单独的列表,然后在任何循环之外的一个调用中将列表传递给
DataFrame
构造函数。实际上,可以将带有列表解析的嵌套列表直接传递给构造函数:okxuctiv2#
只是代码中的一个小改动
0lvr5msh3#
基于@Parfait解决方案,我编写了我的版本,它将列作为参数获取并返回Pandas DataFrame。
test.xml:
xml文件到Pandas.py文件:
输出:
vwoqyblh4#
从pandas 1.3.0开始,有一个内置的pandas函数pd.read_xml,可以将XML文档读入pandas DataFrame。
通过简单地调用
read_xml
,OP中的XML文档变成如下所示: