我有一个下面类型的大文件:
key = asbh
some
lines
of
**text**
key = kafeia
some
more
**text**
and
additionally
more
**text**
and
more
key = lklfh
this
is
another
block
字符串
注意(如果重要的话):'key'的行永远不包含感兴趣的字符串('text')。
我把一个块中从“key”开始的一行到下一行之间的所有行称为块(在这个例子中,是3个块)。我想返回所有包含字符串“text”的块。即所需的输出:
key = asbh
some
lines
of
**text**
key = kafeia
some
more
**text**
and
additionally
more
**text**
and
more
型
我尝试了多种方法,我希望我的方向是正确的,但似乎不能让它工作。这些是我的尝试:
1.第一个月
我相信这可能是从它第一次看到“key”开始,然后继续前进(因此返回了很多不相关的块),直到它在某个地方看到“text”并停止。这是受到一个类似的问题here的启发,但它没有拉取多个块的条件,也没有匹配块内的模式。
less myfile.txt | grep -Pzl '(?s)^key([^key]|\n)*text' | less
个
我认为这可能会更好,如果我能让它工作,我可能会扩展它,因为它目前只尝试获得键和文本之间的文本(直到下一个键)。
1.我试图理解if语句是如何工作的,特别是考虑到这个线程,但我是unix的新手,所以如果有人能解释一下,我会非常感激。
4条答案
按热度按时间mv1qrgav1#
这可能对你有用(GNU sed):
字符串
关闭隐式打印
-n
。如果一行不是开始
key
,将其追加到保留空间并删除,除非它是最后一行。否则,交换到保持空间,如果集合匹配
text
,则打印它。注意:文件结束条件自然会下降到匹配条件。当
key
匹配时,保持/模式空间会发生触发。oyxsuwqo2#
awk
的“段落”模式很简单,因为你有一个空白行分隔块。字符串
我添加了显式的换行符;注意,这将在文件末尾追加一个,即使它不存在。
说明:
-v
在运行中设置v
变量。RS=
将R
ecordS
分离器设置为空,启用“段落模式”,读取直到看到一个 * 空白 * 行,并将其读取的所有内容(是的,整个块)称为一个“记录”。ORS=$'\n\n'
将O
输出R
ecordS
分隔符设置为 * 两个 * 换行符,在段落模式读取删除它之后添加空白行 back。/text/
扫描几行的“记录”,寻找触发器字符串。如果返回true,因为我没有提供任何其他代码来执行,它将打印该块。(注意,由于这是一个简单的检查,我不需要在它周围加上引号;我选择关闭它们以减少噪音。YMMV。)附录
只是注意到tshiono的评论几个小时前我。
我自己也做了相应的修正-
1dkrff033#
为了代码的整洁性和可读性,我建议使用Python或bash脚本文件。
字符串
如果你坚持在一行中完成这个操作,你也可以使用下面的代码:
型
我在几个文件上检查了这个方法,它是正确的。我希望它对你有用。
ncecgwcz4#
Bash可能不是最好的工具,但它肯定可以完成这项工作。下面的代码片段没有任何错误处理;它只是一个碰巧可以处理问题输入的例子。
字符串
如果块的顺序不需要保留,那么您可以完全丢弃
keys
数组,并在写入输出时简单地忽略${!blocks[@]}
。