我使用了:
df['ids'] = df['ids'].values.astype(set)
将lists
转换为sets
,但输出是列表而不是集合:
>>> x = np.array([[1, 2, 2.5],[12,35,12]])
>>> x.astype(set)
array([[1.0, 2.0, 2.5],
[12.0, 35.0, 12.0]], dtype=object)
在Numpy
中有没有一种有效的方法将list转换为set?
编辑1:
我的输入如下:
我有3,000条记录。每条有30,000个ID:[[1,..,12,13,..,30000],[1,..,43,45,..,30000],...,[...]]
3条答案
按热度按时间9q78igpj1#
首先将ndarray展平以获得一维数组,然后对其应用set():
编辑:既然你似乎只是想要一个集合的数组,而不是整个数组的集合,那么你可以执行
value = [set(v) for v in x]
来获得集合的列表。5kgi1eie2#
您的问题的当前状态(可以随时更改):如何有效地从一个大数组中删除重复元素?
IPython shell中的运行时:
更新:正如@hpaulj在他的评论中指出的,我的虚拟示例是有偏见的,因为浮点随机数几乎肯定是唯一的。所以这里有一个更逼真的整数示例:
在这种情况下,输出列表的元素具有不同的长度,因为存在要删除的实际重复项。
wko9yo5t3#
几个早期的“行明智”的独特问题:
vectorize numpy unique for subarrays
Numpy: Row Wise Unique elements
Count unique elements row wise in an ndarray
在其中的几个例子中,计数比实际的唯一值更有趣。
如果每行的唯一值的数量不同,那么结果就不可能是一个(2d)数组。这很好地表明问题不能完全向量化。你需要对行进行某种迭代。