我正在做NLP。我已经做了标记化,我的数据已经变成元组。现在,我想选择包含超过4个项目(单词)的数据。这里是我的数据集的一个样本。
ID content
0 [yes, no, check, sample, word]
1 [never, you]
2 [non, program, more, link, draft, ask]
3 [able]
4 [to, ask, you, other, man, will]
我想创建一个包含数据号0、2和4的新数据集(有4个以上的项目)。下面是一个示例。
ID content
0 [yes, no, check, sample, word]
2 [non, program, more, link, draft, ask]
4 [to, ask, you, other, man, will]
这是我正在写的代码...
df_new = df.loc[df.content.map(len).ne(>4)]
2条答案
按热度按时间xe55xuns1#
您可以使用
pandas.Series.gt
。k97glaaz2#
可以使用
ge
(大于或等于),而不是ne
,如下所示:有关详细信息,请参阅:https://pandas.pydata.org/docs/reference/api/pandas.Series.ge.html