regex gsub、前看和后看

sg3maiej 于 2023-08-08 发布在其他

关注(0)|答案(2)|浏览(80)

我有一个string vector，包含：

Number of source1.2_SPNB.txt
Number of source1.1_SPNB.txt
Number of source1.3_SPNB.txt

字符串
我需要提取“source1.1”，“source1.2”和“source1.3”在一个新的向量。
在this之后，我尝试了：

gsub("(?<=of )(.*)(?=_)", "\\1", string.vector)

型
但我得到一个错误：
正则表达式'（？<=of）（.*）（？=_）'，reason '无效的regexp'
然后我试着：

gsub("(?<=of )(.*)(?=_)", "\\1", string.vector, perl = TRUE)

型
但它返回了完全相同的字符串向量。
我做错了什么？

2条答案

有几个问题：

使用lookahead/lookbehind需要perl = TRUE
即使我们使用正则表达式，它所做的只是用它自己替换所需的子串-我们想要做的是匹配整个字符串（与使用零宽度lookahead/lookbehind相反），然后仅用匹配捕获组的部分替换整个字符串。
假定只需要一个替换，因此应该使用sub，而不是gsub

解决这些问题，我们得到：

sub(".*(source.*?)_.*", "\\1", string.vector)

字符串

我们可以匹配字符，直到空格（.*\\s）或（|）后面跟着其他字符（.*）的_，并将其替换为空白（""）

gsub(".*\\s|_.*", "", string.vector)
#[1] "source1.2" "source1.1" "source1.3"

字符串
或者如果我们需要抓捕小组

sub(".*\\sof\\s([^_]+).*", "\\1", string.vector)
#[1] "source1.2" "source1.1" "source1.3"

型
对于提取目的，最好使用来自stringr的str_extract或来自base R的regmatches/regexpr

regmatches(string.vector, regexpr("(?<=of )([^_]+)(?=_)", string.vector, perl = TRUE))
#[1] "source1.2" "source1.1" "source1.3"

型

string.vector <- c("Number of source1.2_SPNB.txt", "Number of source1.1_SPNB.txt", 
             "Number of source1.3_SPNB.txt")

型