我现在想计算一个有节的文本中的单词数,但不需要标点符号,也不需要删除标点符号。
text = """ Q1 revenue reached €12 .7 billion .""" doc = nlp ( text ) words = doc.num_tokens print(words)
8对不起,如果这是太基本了,但我是非常新的节。你能解释一下我如何测量没有标点符号的单词吗?
af7jpaap1#
如果不想删除标点符号,可以提供一个关键字参数来管道化tokenize_pretokenized,并将其设置为True。这将禁用标记化,您将获得不带标点符号的单词计数
tokenize_pretokenized
True
nlp = stanza.Pipeline(tokenize_pretokenized=True) text = """ Q1 revenue reached €12 .7 billion .""" doc = nlp(text) words = doc.num_tokens print(words) # 7
1条答案
按热度按时间af7jpaap1#
如果不想删除标点符号,可以提供一个关键字参数来管道化
tokenize_pretokenized
,并将其设置为True
。这将禁用标记化,您将获得不带标点符号的单词计数