我有一个pyspark Dataframe 与以下结构。
当前架构:
root
|-- ID
|-- Information
| |-- Name
| |-- Age
| |-- Gender
|-- Description
我想在信息中添加名字和姓氏。姓名
有没有办法在pyspark中添加新的列,这样就有了多层次的结构类型?
预期架构:
root
|-- ID
|-- Information
| |-- Name
| | |-- firstName
| | |-- lastName
| |-- Age
| |-- Gender
|-- Description
2条答案
按热度按时间lmyy7pcs1#
使用
withField
,这将起作用:之前的架构:
之后的架构:
我用Name的当前值初始化了Fname的值,如果需要的话,可以使用substring。
oxf4rvwz2#
如果所有名称都遵循以下模式,则可以在空格上拆分。
带数据的示例代码。