shell 使用AWK删除与html标记(非正则表达式)匹配的字符[重复]

o75abkj4  于 2023-02-09  发布在  Shell
关注(0)|答案(1)|浏览(192)
    • 此问题在此处已有答案**:

RegEx match open tags except XHTML self-contained tags(35个答案)
六年前关闭了。
这篇文章是昨天编辑并提交审查的。
我想从这个正则表达式中删除每个带有awk的html标签:/[<.*.>]/如果在任何字段中找到了所述正则表达式。我一直试图使它与sub或substr一起工作,我无法找到正确的逻辑。
输入文本:
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation<br/><div style="margin-top:6px">< b>veniam:< /b>< /div> <br/><div style="margin-top:6px">< b>Confort:< /b></div>Comenzi volan; Cruise-control; Servodirectie; <br/>
输出:
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitationveniam: Confort:Comenzi volan; Cruise-control; Servodirectie;

k4aesqcs

k4aesqcs1#

如果你不是真的在解析HTML,而是想删除文本文件中每个<...>对之间的所有内容,那么GNU awk的多字符RS就是这样的:

$ awk -v RS='<[^>]+>' -v ORS= '1' file
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitationveniam: Confort:Comenzi volan; Cruise-control; Servodirectie;

相关问题