我试图从PandasDataframe中的一个摘要文本字符串中提取两个感兴趣的数字。下面是一个例子,其中包含了数据中存在的一些特性
import pandas as pd
df = pd.DataFrame(["Fee: $ 15,732, and Expenses: $1,520.62."])
我用regexr测试了一些想法,我能想到的最接近的是
df[0].str.extract("(\${0,2}\s*(\d+[,\.]*){1,5})")
返回:
0 1
0 $15,732,, 732,,
我遇到的问题是在捕获组时使字符成为可选字符(即,我不知道如何去掉内圆括号,因为如果使其成为方括号,则会出现错误)。理想情况下,我也能匹配其他的一组数字。
我使用了regexr,虽然我可以使正则表达式与我想要的匹配,但我正在努力处理分组部分,以便在不需要使用诸如 apply
与 re
.
有时有些数字会在报告的后面再次出现,包括日期、其他数字等等。。。所以我试着找到一个很有控制力的序列(不能太自由了,哈哈)
暂无答案!
目前还没有任何答案,快来回答吧!