我有这样一个数据表,记录数超过百万行,唯一字段attr_id、attr_name不超过20个
| 对象标识|属性标识|属性名称|价值|
| - ------|- ------|- ------|- ------|
| 7315dcbf-6178-4aa7-97ba-8875e2542471|f5af0127-fd4c-409b-afda-b896a80f7fe1|姓名|奥列格|
| 7315dcbf-6178-4aa7-97ba-8875e2542471|ebdd03e5-a380-46bd-b505-f1f166be6409|年龄|二十二|
| 7315dcbf-6178-4aa7-97ba-8875e2542471|735fab29-cde8-4b34-979f-864b375f820f|数|小行星2222|
| 50b9d918-b0ab-41d4-957c-24f506ceb737|f5af0127-fd4c-409b-afda-b896a80f7fe1|姓名|马克斯|
| 50b9d918-b0ab-41d4-957c-24f506ceb737|ebdd03e5-a380-46bd-b505-f1f166be6409|年龄||
| 50b9d918-b0ab-41d4-957c-24f506ceb737|735fab29-cde8-4b34-979f-864b375f820f|数|三二二二|
我想把它转换成这种格式
| 对象标识|姓名|年龄|数|
| - ------|- ------|- ------|- ------|
| 7315dcbf-6178-4aa7-97ba-8875e2542471|奥列格|二十二|小行星2222|
| 50b9d918-b0ab-41d4-957c-24f506ceb737|马克斯||三二二二|
有没有可能使用spark来做到这一点,如果有,如何做到,或者阅读什么材料?
1条答案
按热度按时间ql3eal8s1#
您可以简单地按如下方式透视数据框: