csv Python -使用Pandas打印多个 Dataframe [duplicate]

uemypmqf 于 2023-05-11 发布在 Python

关注(0)|答案(1)|浏览(113)

此问题已在此处有答案：

Logical operators for Boolean indexing in Pandas（4个答案）
17小时前关闭
我正在使用.csv文件查找具有重复记录沿着缺少DOB和性别的行。
我将要处理的.csv文件没有列标题。
1.加载.csv文件（无问题。）
1.添加列标题（无问题。）
1.确定是否存在重复行（此代码没有问题。）
1.使用. isna确定是否缺少出生日期。打印SSN、姓氏、名字和出生日期。由于包含.isna（''），DOB应为空白（在此行中出现语法错误）
如果布尔值返回“TRUE”（字段为空/ null），则将数据框中列出的部分行数据打印到Excel电子表格。我包含了.fillna（''）代码，以便在打印到电子表格时使DOB字段为空而不是foTRUE。每个数据框在Excel工作簿中都有自己的选项卡。最后一个代码块将单独的选项卡写入工作表工作正常。
1.确定是否缺少性别，并打印出EmpID、SSN、LastName、FirstName和Gender。（我假设上面4）中的语法错误也会发生在这一行。）

问题：检查出生日期和性别字段是否为空/空白，然后打印出特定字段的最佳方法是什么？我的代码在下面。
#导入Pandas

import pandas as pd

# Read csv file using Pandas
df = pd.read_csv('data.csv', engine='python')

# Add column headers to csv file
df.columns = ["EmpID","SSN", "Status", "LastName", "FirstName", "Middle", "DOB", "Address1", "Address2", "City", "State", "Zip", "Phone", "Email", "Gender"]

# Dataframe 0 used to obtain list of duplicate rows referencing multiple columns
df0 = df[df[["EmpID", "SSN","DOB"]].duplicated() == True

# Dataframe 1 used to obtain list of missing Dates of Birth
df1 = df["DOB"].isna().fillna('')
if df1 == True: print(df.columns = "EmpID", "SSN", "LastName", "FirstName", "DOB")

## Dataframe 2 used to obtain list of missing Genders
df2=df["Gender"].isna().fillna('')
if df2 == True: print(df.columns = "EmpID", "SSN", "LastName", "FirstName", "Gender")

## Print the above 3 dataframes as separate tabs in one Excel file
with pd.ExcelWriter('output.xlsx') as writer:
    df0.to_excel(writer, sheet_name='Duplicates', index=True)
    df1.to_excel(writer, sheet_name='DOB', index=True)
    df2.to_excel(writer, sheet_name='Gender', index=True)

csv

来源：https://stackoverflow.com/questions/76213663/python-printing-multiple-dataframes-using-pandas

1条答案

按热度按时间

6vl6ewon1#

您可以对DataFrame进行切片，以仅返回“True”行所在的位置。我认为你的代码的问题是你将fillna()应用于布尔级数，所以它不会填充任何东西。
在下面的代码中，df0存储整个重复的行，df1返回Name和Age的子集（这将是NA）。

import pandas as pd

data = [['Tom', 20, 'blue'], ['Dick', 40, 'red'], ['Dick', 40, 'yellow'], ['Harry', pd.NA, 'green']]
df = pd.DataFrame(data, columns=['Name', 'Age', 'Color'])

df0 = df[df.duplicated(subset=['Name', 'Age'])]
df1 = df.loc[df['Age'].isna(), ['Name', 'Age']]

赞(0）回复(0）举报 2023-05-11

我来回答

csv Python -使用Pandas打印多个 Dataframe [duplicate]

1条答案

相关问题

热门标签

最新问答