假设我取了一个由各个字段分隔的名称样本:
indx First Name Middle Name Last Name
0 CHARITIXAN K.R., NICHOLS
1 None Johnny-Boy CHAVEZ
2 ISAAC None ESPARZA
3 MICHAEL nan
4 Andrew Pfaff
我们还假设这些数据被格式化为pandas dataframe(df),并且已经进行了足够的清理(通过.replace
方法),所有剩下的值都是被占用的字符串或空字符串。
indx First Name Middle Name Last Name
0 CHARITIXAN K.R., NICHOLS
1 Johnny-Boy CHAVEZ
2 ISAAC ESPARZA
3 MICHAEL
4 Andrew Pfaff
我想正确地合并一个给定名称的所有部分,每个名称段之间只有一个空格。根据我的研究和实现,我发现的最佳解决方案是this-使用re
。这是最佳方法吗?或者对于这种特定情况有更好的方法吗?
我的最终方法是这样的:
df['full_name']=df[['First Name', 'Middle Name', 'Last Name']].apply(lambda x: re.sub(' +', ' ', ' '.join(x)), axis=1)
2条答案
按热度按时间e0bqpujr1#
您可以将加入应用为:
n9vozmp42#
你可以用这个