已关闭,此问题需要更focused。目前不接受答复。
**想改善这个问题吗?**更新问题,使其仅通过editing this post关注一个问题。
2天前关闭。
Improve this question
假设我们有一个简单的文本文件,其中包含一些常见英语单词的信息,例如the
,and
和to
:
the 9243 (definite article adverb)
and 5196 (conjunction)
to 4951 (preposition;adverb)
a 4506 (
indefinite
article
noun
preposition
)
in 2822 {preposition,adverb}
is 2699 [verb, infix_operator, short_word]
在抓取此文件以获取有关基本英语单词的信息的上下文中,记录的正则表达式是什么?
1条答案
按热度按时间carvr3hs1#
您可以按照您提供的规则一点一点地构建这个正则表达式:
<record> : (<word>)\s(<number>)\s(<wcsvl>)
<word> : [A-Za-z]+
<number> : [0-9]+
<wcsvl> : <left_delim><csvl><right_delim>
QUANTIFY((1, 1), "(", "[", "{")
)<left_delim> : [(\[{]
QUANTIFY((1, 1), ")", "]", "}")
)的定义<right_delim> : [)\]}]
<csvl> : <word>(<infix_delim><word>)*
<infix_delim> : [\s:,]
一旦你把规则转换成了实际的正则表达式,只需要在cascade中应用一些替换:
这个正则表达式仍然需要一些调整,以完全工作,通过查看您提供的样本匹配数据,其中:
如下所示:
检查regex demo here。