python 节:不加标点的单词计数

w1jd8yoj  于 2022-12-17  发布在  Python
关注(0)|答案(1)|浏览(128)

我现在想计算一个有节的文本中的单词数,但不需要标点符号,也不需要删除标点符号。

text = """ Q1 revenue reached €12 .7 billion ."""
doc = nlp ( text )
words = doc.num_tokens
print(words)

8
对不起,如果这是太基本了,但我是非常新的节。你能解释一下我如何测量没有标点符号的单词吗?

af7jpaap

af7jpaap1#

如果不想删除标点符号,可以提供一个关键字参数来管道化tokenize_pretokenized,并将其设置为True
这将禁用标记化,您将获得不带标点符号的单词计数

nlp = stanza.Pipeline(tokenize_pretokenized=True)

text = """ Q1 revenue reached €12 .7 billion ."""
doc = nlp(text)
words = doc.num_tokens
print(words) # 7

相关问题