因此,我目前正在为一个投资组合项目工作,我有一个大型的数据框架(在许多其他列中)有两列,一列用于“邻居组”,另一列用于“邻居”。问题是在第一列中有一些NaN
值。我需要找出如何填写这些与各自的城市地区。
范例:
resident neighbourhood group neighbourhood
John Brooklyn Clinton Hill
Mae Brooklyn Clinton Hill
Richard Manhattan East Harlem
Clark Manhattan Upper West Side
...
Claire NaN Clinton Hill
Susan NaN East Harlem
字符串
这只是一个简单的例子。我有数百个这样的情况下不可能手动改变这么多。你知道如何把合适的区域分配给合适的邻居吗?
我尝试过构建不同的函数来解决这个问题,但都无济于事,但我无法解决这个问题。
3条答案
按热度按时间qnzebej01#
我建议建立一个参考字典来匹配邻居到邻居组。假设这是原始 Dataframe :
字符串
首先创建一个引用字典
reference
,其中键来自“neighborhood”列,值来自“neighborhoodgroup”列。型
接下来,将字典引用应用于数据框架
型
rsl1atfo2#
字符串
我们可以通过删除重复项和NaN,并转换为字典来从邻域到邻域组进行查找:
型
然后,我们使用
DataFrame.replace()
将邻域与邻域组进行匹配:型
然后我们用新的填充值替换
neighbourhoodgroup
列中的NaN,使用fillna
:型
yqkkidmi3#
另一种可能的解决方案:
字符串
输出量:
型