我正在接收文件,但某些文件得列命名不同.例如:
1.在文件1中,列名为:“学生ID”、“地址”、“电话号码”。
1.在文件2中,列名为:“公用标识”、“公用地址”、“移动的电话号码”。
1.在文件3中,列名为:“S_学生ID”、“S_地址”、“家庭移动的”。
在将文件数据加载到dataframe之后,我希望传递一个字典,在该字典中,我希望传递如下值:
StudentId -> STUDENT_ID
Common_ID -> STUDENT_ID
S_StudentID -> STUDENT_ID
ADDRESS -> S_ADDRESS
Common_Address -> S_ADDRESS
S_ADDRESS -> S_ADDRESS
这样做的原因是因为在我的下一个 Dataframe 中,我正在阅读列名称,如“学生_ID”、“S_ADDRESS”,如果在 Dataframe 中找不到“S_ADDRESS”、“学生_ID”名称,对于名称未标准化文件,它将抛出错误。我想运行我的 Dataframe ,并在上面的DF中重命名后从这些文件中获取值,还有一个问题,当运行新的DF时,它是否会选择列名称形成其中包含数据字典
2条答案
按热度按时间yeotifhr1#
您可以根据需要使用字典,并使用带有列表解析的
toDF
来重命名列。输入 Dataframe 和列名:
字典和
toDF
:结果列名称:
chhkpiq42#
使用dict和list解析。一个更简单的方法是,即使某些列不在列表中,也可以使用