pyspark—将复杂xml转换为对象的spark处理和转换

dluptydi  于 2021-05-17  发布在  Spark
关注(0)|答案(0)|浏览(403)

我有一个正在进行的项目,我正在使用Spark,我到了一个点,我不是100%确定如何前进。
其目的是解析复杂的xml对象,并最终使用rdf将它们加载到图形数据库中。xml对象包含业务事务的定义,除了事务的属性外,它还包含对其他文档和事务的引用,以便最终连接到图形中。想想一张发票,上面提到的是已售出的商品。
我使用结构化流,将xml字符串读入Dataframe。在非spark应用程序中,我会将该xml字符串与其他参数一起传递给函数,执行所有需要的转换,并返回可以持久化到图形中的对象。我知道udf是可用的,但是它们似乎只能返回一些预先确定的类型。
有人对我如何解决这个问题有什么想法或建议吗?
谢谢您,
--医学博士

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题