string <- "A B C D E F"
quanteda::tokens_ngrams(quanteda::tokens(string), concatenator = " ")
#> Tokens consisting of 1 document.
#> text1 :
#> [1] "A B" "B C" "C D" "D E" "E F"
data.frame(s = string) |>
tidytext::unnest_ngrams(input = "s", output = "bigrams", n = 2)
#> bigrams
#> 1 a b
#> 2 b c
#> 3 c d
#> 4 d e
#> 5 e f
4条答案
按热度按时间x3naxklr1#
按空格拆分,然后使用shift键 * 粘贴 *:
jq6vz3qz2#
sulc1iza3#
如果你已经使用了一些文本挖掘包(如清理、词干化和删除停用词),很可能会有一些东西生成n-gram(而不仅仅是bigram)。
创建于2023年1月31日,使用reprex v2.0.2
qyzbxkaa4#
一个选项是使用带有look ahead的正则表达式。