我有一个包含多个列的Dataframe:
| ID | Grouping | Field_1 | Field_2 | Field_3 | Field_4 |
|----|----------|---------|---------|---------|---------|
| 1 | AA | A | B | C | M |
| 2 | AA | D | E | F | N |
我想创建2个新列,并在现有字段上使用groupby在新字段中存储现有列的列表。这样,我的新Dataframe将如下所示:
| ID | Grouping | Group_by_list1 | Group_by_list2 |
|----|----------|----------------|----------------|
| 1 | AA | [A,B,C,M] | [D,E,F,N] |
pyspark是否有办法处理这种与Dataframe的争用以创建这种预期结果?
1条答案
按热度按时间gr8qqesn1#
添加了内联注解,请检查下面的代码。
注:只有当
DataFrame
有两排。