我想从句子中提取日期和正则表达式模式(日期在模式之后)。
text1 <- "The number of subscribers as of December 31, 2022 of Netflix increased by 1.15% compared to the previous year."
text2 <- "Netflix's number of subscribers in January 10, 2023 has grown more than 1.50%."
模式是number of subscribers
,然后是Month Day, Year
的日期。有时在模式和日期之间有as of
或in
或no characters
。
我试过下面的脚本。
find_dates <- function(text){
pattern <- "\\bnumber\\s+of\\s+subscribers\\s+(\\S+(?:\\s+\\S+){3})" # pattern and next 3 words
str_extract(text, pattern)
}
然而,这也提取了中间词,我想忽略它。
预期输出:
查找日期(文本1)
'2022年12月31日的订户数量'
查找日期(文本2)
'2023年1月10日订阅者数量'
2条答案
按热度按时间soat7uwm1#
dphi5xsq2#
使用
stringr
的方法