regex 使用awk模拟“grep -oE”的停止条件

zsbz8rwp 于 2023-04-13 发布在其他

关注(0)|答案(4)|浏览(105)

我试图用标准的awk调用来模拟GNU grep -Eo。
该男子对-o选项的说法是：

-o --only-matching

  仅打印匹配行的匹配（非空）部分，每个部分在单独的输出行上。

现在我有这个代码：

#!/bin/sh

regextract() {
    [ "$#" -ge 2 ] || return 1
    __regextract_ere=$1
    shift
    awk -v FS='^$' -v ERE="$__regextract_ere" '
        {
            while ( match($0,ERE) && RLENGTH > 0 ) {
                print substr($0,RSTART,RLENGTH)
                $0 = substr($0,RSTART+1)
            }
        }
    ' "$@"
}

我的问题是：如果匹配的部分是0-length，我需要继续尝试匹配剩下的行，还是应该移动到下一行（就像我已经做的那样）？我找不到需要前者的input+regex示例，但我觉得它可能存在。有什么想法吗？

regex

来源：https://stackoverflow.com/questions/73120366/stop-condition-for-emulating-grep-oe-with-awk

4条答案

按热度按时间

k4aesqcs1#

下面是一个POSIX awk版本，它可以与a*（或任何POSIX awk regex）一起使用：

echo abcaaaca |
awk -v regex='a*' '
{
    while (match($0, regex)) {
        if (RLENGTH) print substr($0, RSTART, RLENGTH)
        $0 = substr($0, RSTART + (RLENGTH > 0 ? RLENGTH : 1))
        if ($0 == "") break
    }
}'

图纸：

a
aaa
a

POSIX awk和grep -E使用POSIX扩展正则表达式，除了awk允许C转义（像\t），但grep -E不允许。如果你想要严格的兼容性，你必须处理这个问题。

赞(0）回复(0）举报 2023-04-13

fcipmucu2#

如果您可以考虑gnu-awk解决方案，那么使用RS和RT可能会给予grep -Eo的相同行为。

# input data
cat file
FOO:TEST3:11
BAR:TEST2:39
BAZ:TEST0:20

使用grep -Eo：

grep -Eo '[[:alnum:]]+' file
FOO
TEST3
11
BAR
TEST2
39
BAZ
TEST0
20

使用gnu-awk与RS和RT使用相同的正则表达式：

awk -v RS='[[:alnum:]]+' 'RT != "" {print RT}' file
FOO
TEST3
11
BAR
TEST2
39
BAZ
TEST0
20

更多示例：

grep -Eo '\<[[:digit:]]+' file
11
39
20

awk -v RS='\\<[[:digit:]]+' 'RT != "" {print RT}' file
11
39
20

赞(0）回复(0）举报 2023-04-13

pxiryf3j3#

感谢各种各样的评论和回答，我认为我现在有一个工作的，健壮的，（也许）高效的代码：

在AIX/Solaris/FreeBSD/macOS/Linux上测试

#!/bin/sh
  
regextract() {

    [ "$#" -ge 1 ] || return 1
    [ "$#" -eq 1 ] && set -- "$1" -

    awk '
        BEGIN {
            ere = ARGV[1]
            delete ARGV[1]
        }
        {
            tail = $0
            while ( tail != "" && match(tail,ere) ) {
                if (RLENGTH) {
                    print substr(tail,RSTART,RLENGTH)
                    tail = substr(tail,RSTART+RLENGTH)
                } else
                    tail = substr(tail,RSTART+1)
            }
        }
    ' "$@"
}

regextract "$@"

备注：

我沿着文件参数传递ERE字符串，这样awk就不会预处理它（感谢@anubhava指出这一点）;C风格的转义序列仍然会被awk的正则表达式引擎翻译（感谢@dan指出这一点）。
因为分配$0会重置所有字段的值，所以我选择FS = '^$'来限制开销

在一个单独的变量中复制$0可以抵消在while循环中分配$0所引起的开销（感谢@EdMorton指出这一点）。

几个例子：

# Multiple matches in a single line:
echo XfooXXbarXXX | regextract 'X*'
X
XX
XXX

# Passing the regex string to awk as a parameter versus a file argument:
echo '[a]' | regextract_as_awk_param '\[a]'
a
echo '[a]' | regextract '\[a]'
[a]

# The regex engine of awk translates C-style escape sequences:
printf '%s\n' '\t' | regextract '\t'
printf '%s\n' '\t' | regextract '\\t'
\t

赞(0）回复(0）举报 2023-04-13

pqwbnv8z4#

您的代码将无法匹配可能包含零个或多个字符的字符，请考虑以下简单示例，让file.txt内容为

1A2A3

然后

grep -Eo A* file.txt

给出输出

A
A

你的while的条件是match($0,ERE) && RLENGTH > 0，在这种情况下，前一部分为true，但后一部分为false，因为在第一个字符之前找到的匹配是零长度（RSTART被设置为1），因此while的主体将被执行零次。

赞(0）回复(0）举报 2023-04-13

我来回答

regex 使用awk模拟“grep -oE”的停止条件

4条答案

几个例子：

相关问题

热门标签

最新问答