regex 如何从html文件中查找和获取文本?

v440hwme  于 12个月前  发布在  其他
关注(0)|答案(1)|浏览(98)
<div>
  <div>
    <h1>Title</h1>
    <p>Some text i want to fetch</p>
  </div>
  <RandomVueComponent>Some other text i want to fetch</RandomVueComponent>
</div>
<a href="#">Might be some text too</a>

字符串
我通过Python脚本使用正则表达式来扫描我的代码库。这些脚本返回给我一个代码库中所有文本的列表,包括它们的文件路径,行...等。所以我可以跟踪我的html文件中的文本。但是,我找不到一种方法来找到所有文本,不管它在html分隔符中嵌套了多少,并且不考虑该键本身。因此该键不能用作匹配键(如r'<p>text</p>)。
我想尽量避免使用库。我听说过Beautiful Soup,但我认为它需要一个匹配的键(如html标签)。
我尝试了什么?我尝试了一些粗略的正则表达式,显然不起作用。

qnyhuwrf

qnyhuwrf1#

尝试以下操作:

(?<=\>)[A-Za-z0-9 ]+

字符串

相关问题