我有一个大的ish(21gb)制表符分隔的数据框的形式
DOCID_1 TERMID_1 TITLE_1 YEAR_1 AUTHOR_1
DOCID_1 TERMID_2 TITLE_1 YEAR_1 AUTHOR_1
...
DOCID_n TERMID_n TITLE_n YEAR_n AUTHOR_n
也就是说,(docid,termid)对总是唯一地标识一行。我需要的是一个Dataframe,其中docid单独唯一地标识一行,termid被折叠成一个逗号分隔的字符列表。例如,
DOCID_1 TERMID_11, TERMID_12, ..., TERMID_n TITLE_1 YEAR_1 AUTHOR_1
...
DOCID_n TERMID_n1, TERMID_n2, ..., TERMID_n TITLE_1 YEAR_n AUTHOR_n
有人能想出一个好的方法来做这件事吗?
1条答案
按热度按时间vcirk6k61#