python 如何使用正则表达式在同时包含英语和希伯来语的字符串上提取文本?

s4n0splo  于 2023-02-11  发布在  Python
关注(0)|答案(1)|浏览(113)

我有以下格式的字符串,并尝试在python中提取文件扩展名之前但单词שנה之前的单词:在第一个示例中,我需要单词בראשית,在第二个示例中,我需要单词חיי שרה
1. בראשית שנה ה_ - שפת התורה.pdf
5. חיי שרה שנה ה_ - כתיבת כתובה.pdf
我尝试了一些正则表达式,包括regex = '\d\..+שנה (. +)\.pdf,但似乎无法找到答案

gj3fmq9x

gj3fmq9x1#

您可以使用以下正则表达式:

r'\d.\s(.*)\sשנה.*.pdf'

请参阅下面的完整代码片段:

import re

match_object = re.match(r'\d.\s(.*)\sשנה.*.pdf', '1. בראשית שנה ה_ - שפת התורה.pdf')
print(match_object.groups()[0])
# prints בראשית
match_object = re.match(r'\d.\s(.*)\sשנה.*.pdf', '5. חיי שרה שנה ה_ - כתיבת כתובה.pdf')
print(match_object.groups()[0])
# prints חיי שרה

相关问题