我在磁盘上有三个文件train.xlsx、validation.xlsx和test.xlsx,我需要一个数据集库中包含这三个文件的数据集,下面是我的代码:
from google.colab import drive
from datasets import Dataset
import pandas as pd
drive.mount('/content/drive')
train_data = pd.read_excel('/content/drive/My Drive/NLP-Datasets/Question2_Data/train.xlsx')
validation_data = pd.read_excel('/content/drive/My Drive/NLP-Datasets/Question2_Data/valid.xlsx')
test_data = pd.read_excel('/content/drive/My Drive/NLP-Datasets/Question2_Data/test.xlsx')
print(train_data.shape)
print(validation_data.shape)
print(test_data.shape)
现在我需要一个数据集,其中包含来自相应文件的这些键:数据集['train']和数据集['validation']和数据集['test']有人能帮我吗?
2条答案
按热度按时间vddsk6oq1#
试试这个
值得注意的是,如果这些 Dataframe 只有一列,则
.values.tolist()
有效,如果没有列,则指定为EX。:train_data ['COLUMN'].values.tolist()
zynd9foi2#
试试这个
更新:可以使用Python中的datasets库从磁盘上的三个文件创建数据集,如下所示: