R中的成对序列表匹配

siv3szwd 于 2023-01-15 发布在其他

关注(0)|答案(1)|浏览(105)

我在R for lists中做序列比对/匹配时遇到了问题，让我解释一下，我的数据是点击流数据，序列被划分为n元语法，序列看起来像

1. ABDCGHEI... NaNa
2. ACSNa.... NaNa

等等，Na代表“不可用”，需要匹配序列长度。现在我把所有这些序列以一种粗鲁的方式放入一个列表，就像

dativec = as.vector(dataseq2)
for(i in 1:length(dativec)) {
  prova2[[i]] = dativec[i]
}
BigramTokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}
prova3 = lapply(prova2, BigramTokenizer)

并将它们分成n元文法，例如二元文法看起来像这样：

[[1]] "A B" "B D" "D C".... "Na Na"
[[2]] "A C" "C S" .... "Na Na"

现在的挑战是：我如何匹配列表中每个元素的二元模型，以及列表中其他元素的二元模型？我尝试使用Biostrings包，但是pairwiseAlignment函数只返回列表中每个元素的第一个二元模型的分数，而我只需要知道它们是否相同，我需要所有的比较，而不仅仅是第一个元素。想要的结果是没有位置信息的相等子元的百分比。我只关心身份。我也尝试使用setdiff函数，但显然它没有。I don“我不能按我想要的方式工作。
编辑以获得更多清晰度

r

来源：https://stackoverflow.com/questions/75107476/pairwise-sequence-list-matching-in-r

1条答案

按热度按时间

bmp9r5qi1#

您可以使用outer：

bigrams <- list (a = c("A B", "B D", "D C", "Na Na"),
                 b = c("A C", "C S", "Na Na"))

with(bigrams, outer(a, b, `==`))

##>       [,1]  [,2]  [,3]
##> [1,] FALSE FALSE FALSE
##> [2,] FALSE FALSE FALSE
##> [3,] FALSE FALSE FALSE
##> [4,] FALSE FALSE  TRUE

赞(0）回复(0）举报 2023-01-15

我来回答

R中的成对序列表匹配

1条答案

相关问题

热门标签

最新问答