regex R中的Quanteda和stringr：(正确)无法解析正则表达式

ar5n3qh5 于 2023-06-30 发布在其他

关注(0)|答案(2)|浏览(79)

我想使用quanteda和stringr库运行正则表达式搜索，但我继续收到错误。我的目标是使用正则表达式\(VP\h+\(V\w*\h+\w*\)匹配模式(VP (V.. ...)。下面是一个MWE：

library(quanteda)
library(dplyr)
library(stringr)

text <- "(ROOT (S (NP (PRP It)) (VP (VBZ is) (RB not) (VP (VBN transmitted) (PP (IN from) (: :) (S (VP (VBG giving) (NP (NP (NP (NP (NML (NN blood)"

kwic_regex <- kwic(
  # define text
  text, 
  # define search pattern
  "\(VP\h+\(V\w*\h+\w*\)", 
  window = 20, 
  # define valuetype
  valuetype = "regex") %>%
  # make it a data frame
  as.data.frame()

这是错误消息：

Error: '\(' is an unrecognized escape in character string starting ""\("

我觉得这很令人困惑，因为正则表达式应该是正确的（参见。https://regex101.com/r/3hbZ0R/1）。我也试过转义转义（例如\\(），但没有用。我真的很感激任何关于如何改进我的查询的想法。

regex

来源：https://stackoverflow.com/questions/76581901/quanteda-and-stringr-in-r-correct-regex-cannot-be-parsed

2条答案

按热度按时间

xqkwcwgp1#

R字符串似乎通过首先检查是否找到
允许转义的字符，它们可以替换结果控制代码。
由于普遍认为转义可以解析为单引号文本，
所有的转义都会在解析到传递给函数的 raw regex字符串后解析。
所以你的双引号字符串应该是"\\(VP\\h+\\(V\\w*\\h+\\w*\\)"，它被解析为\(VP\h+\(V\w*\h+\w*\)，然后交给stringr函数。

library(stringr)
 str_match_all(
 "(ROOT (S (NP (PRP It)) (VP (VBZ is) (RB not) (VP (VBN transmitted) (PP (IN from) (: :) (S (VP (VBG giving) (NP (NP (NP (NP (NML (NN blood)",
 "\\(VP\\h+\\(V\\w*\\h+\\w*\\)" )

https://www.mycompiler.io/view/BjjkPXQUNpT
输出量

[[1]]
      [,1]                   
 [1,] "(VP (VBZ is)"         
 [2,] "(VP (VBN transmitted)"
 [3,] "(VP (VBG giving)"

每种语言都强制执行不同的解析规则。
如果遇到未知的转义序列，有些会抛出错误
就像\(一样，其他人会简单地将转义剥离到这个(，而不会告诉你。

赞(0）回复(0）举报 2023-06-30

ojsjcaue2#

我发现了问题所在：显然，kwic()函数不再支持空格（参见kwic in quanteda (R) does not identify more than one word in regex pattern）。在运行搜索之前，我还使用了token()函数，并将表达式 Package 在phrase()中。
下面是正确的代码：

library(quanteda)
library(dplyr)
library(stringr)
library(tidyverse)

rm(list=ls(all=T))

text <- "(ROOT (S (NP (PRP It)) (VP (VBZ is) (RB not) (VP (VBN transmitted) (PP (IN from) (: :) (S (VP (VBG giving) (NP (NP (NP (NP (NML (NN blood)"

text2 <- tokens(text)

kwic_regex <- kwic(
  text2, 
  phrase("\\( VP \\V\\w* \\w* \\w* \\)"), 
  window = 10, 
  separator = " ",
  case_insensitive = F,
  valuetype = "regex") %>%
  as.data.frame(); kwic_regex

输出：

docname from to                        pre                  keyword
1   text1   12 17 ROOT ( S ( NP ( PRP It ) )          ( VP ( VBZ is )
2   text1   22 27 ( VP ( VBZ is ) ( RB not ) ( VP ( VBN transmitted )
3   text1   40 45    ( IN from ) ( : : ) ( S      ( VP ( VBG giving )
                                 post                      pattern
1 ( RB not ) ( VP ( VBN transmitted ) \\( VP \\V\\w* \\w* \\w* \\)
2            ( PP ( IN from ) ( : : ) \\( VP \\V\\w* \\w* \\w* \\)
3           ( NP ( NP ( NP ( NP ( NML \\( VP \\V\\w* \\w* \\w* \\)

赞(0）回复(0）举报 2023-06-30

我来回答

regex R中的Quanteda和stringr：(正确)无法解析正则表达式

2条答案

相关问题

热门标签

最新问答