我尝试从多个PDF中提取日期,以便在数据集中创建日期列。
我有一个文件夹持有所有的pdf的,并试图做一个主题建模在一段时间内,因此我需要提取日期。
下面是我刚刚得到的包含文件名的数据集。
# A tibble: 260 x 1
filename
<chr>
1 ./2012.01.18.pdf
2 ./2012.02.07.pdf
3 ./2012.03.12.pdf
4 ./2012.03.26.pdf
5 ./2012.04.02.pdf
6 ./2012.04.04.pdf
7 ./2012.04.19.pdf
8 ./2012.05.01.pdf
9 ./2012.05.07.pdf
10 ./2012.06.14.pdf
尝试“as.Date”没有运气,因为我无法从保存所有PDF文件的文件中提取日期
2条答案
按热度按时间gpfsuwkq1#
在
format
中,我们可以指定额外的字符以及年(%Y
)、月(%m
)和日(%d
)的自定义格式数据
cgyqldqp2#
必须首先从名称中提取日期字符串,然后强制转换为类
"Date"
。创建于2022年11月27日,使用reprex v2.0.2