python 节：不加标点的单词计数

w1jd8yoj 于 2022-12-17 发布在 Python

关注(0)|答案(1)|浏览(128)

我现在想计算一个有节的文本中的单词数，但不需要标点符号，也不需要删除标点符号。

text = """ Q1 revenue reached €12 .7 billion ."""
doc = nlp ( text )
words = doc.num_tokens
print(words)

8
对不起，如果这是太基本了，但我是非常新的节。你能解释一下我如何测量没有标点符号的单词吗？

python

来源：https://stackoverflow.com/questions/74828148/stanza-count-words-without-punctuation

1条答案

按热度按时间

af7jpaap1#

如果不想删除标点符号，可以提供一个关键字参数来管道化tokenize_pretokenized，并将其设置为True。
这将禁用标记化，您将获得不带标点符号的单词计数

nlp = stanza.Pipeline(tokenize_pretokenized=True)

text = """ Q1 revenue reached €12 .7 billion ."""
doc = nlp(text)
words = doc.num_tokens
print(words) # 7

赞(0）回复(0）举报 2022-12-17

我来回答

python 节：不加标点的单词计数

1条答案

相关问题

热门标签

最新问答