我正在尝试将几个文本文档上传到R中的一个数据框中。我想要的输出是一个包含两列的矩阵:
| 文件|内容|
| - ------| - ------|
| 文件A|这是内容。|
| :----|:-------:|
| 文件B|这是内容。|
| :----|:-------:|
| 文件C|这是内容。|
在"内容"列中,应显示文本文档(10-K报告)中的所有文本信息。
> setwd("C:/Users/folder")
> folder <- getwd()
> corpus <- Corpus(DirSource(directory = folder, pattern = "*.txt"))
这将创建一个语料库,我可以标记它。但我没有实现转换为 Dataframe 或我渴望的输出。
有人能帮帮我吗?
1条答案
按热度按时间2g32fytz1#
如果你只处理
.txt
文件,并且你的最终目标是一个 Dataframe ,那么我认为你可以跳过语料库步骤,直接以列表的形式读入所有文件,困难的部分是将.txt
文件的名称放入一个名为DOCUMENT
的列中,但这可以在base R中完成。