我有这个密码。我正在尝试从this website提取数据到pandas中。
from pyquery import PyQuery as pq
import requests
import pandas as pd
url = "https://www.tsa.gov/travel/passenger-volumes"
content = requests.get(url).content
doc = pq(content)
Passengers = doc(".views-align-center").text()
方法一:
df = pd.DataFrame([x.split(' ') for x in Passengers.split(' ')])
print(df)
方法二:
Passengers = Passengers.replace(' ',';')
Passengers
对于方法1,是否可以使用pandas数据框unstack来获得正确的表结构?
还是方法2比较好?如何定期拆分字符串并加载到pandas中?
1条答案
按热度按时间ztmd8pv51#
你可以直接在Pandas中这样做:
这给出了DataFrame:
2023中的NaN值强制使用float dtype,但您可以根据需要清理数据。例如: