comma在将表从pyspark集群导出到bigquery时为列中的特定值生成单独的行

z5btuh9x  于 2021-05-27  发布在  Spark
关注(0)|答案(2)|浏览(424)

我使用下面的代码将spark df导出到bigquery

gcs_bucket = 'main'
bq_dataset = 'table'
bq_table = 'user'

Rules.write \
  .format("bigquery") \
  .option("table","{}.{}".format(bq_dataset, bq_table)) \
  .option("temporaryGcsBucket", gcs_bucket) \
  .mode('overwrite') \
  .save()

下面是我在集群中得到的输出

+-----------+----------+-------------------+------------------+
| antecedent|consequent|         confidence|              lift|
+-----------+----------+-------------------+------------------+
|[19, 6, 39]|      [44]|  0.418945963975984|10.602038775664845|
|[19, 6, 39]|      [35]|0.47298198799199465| 7.423073393311932|
|[19, 6, 39]|     [322]|   0.47631754503002|4.6520592549063995|
|[19, 6, 39]|     [308]| 0.4496330887258172| 5.856259667533207|
|[19, 6, 39]|     [345]| 0.5196797865243495|5.4970336458402285|

当把上面的df导出到bigquery时,我得到了下面格式的表。为什么?我该怎么修?

exdqitrt

exdqitrt1#

这就是bigQueryUI可视化数组(重复字段)的方式!
在classic和console ui中

同时,这只是给定工具如何表示/可视化某些数据类型的问题
例如,在goliath(potens.io套件的一部分)中,它将表示为

然后能够深入到特定的数据单元并将其视为(例如)

wtlkbnrh

wtlkbnrh2#

根据你的产出,似乎 antecedent 以及 consequent 是数组或python列表。它们被转换成bigquery的数组。

相关问题