为什么使用混合用例时会有不同的行为，而Spark3.2中使用的是相同的用例

eni9jsuy 于 2023-04-07 发布在 Apache

关注(0)|答案(1)|浏览(95)

我正在spark3.2中运行一个简单的查询

val df1 = sc.parallelize(List((1,2,3,4,5),(1,2,3,4,5))).toDF("id","col2","col3","col4", "col5")
val op_cols_same_case = List("id","col2","col3","col4", "col5", "id")
val df2 = df1.select(op_cols_same_case.head, op_cols_same_case.tail: _*)
df2.select("id").show()

上面的查询返回结果，但是当我混合大小写时，它给出了异常

val df1 = sc.parallelize(List((1,2,3,4,5),(1,2,3,4,5))).toDF("id","col2","col3","col4", "col5")
val op_cols_diff_case = List("id","col2","col3","col4", "col5", "ID")
val df2 = df1.select(op_cols_diff_case.head, op_cols_diff_case.tail: _*)
df2.select("id").show()

在我的测试用例中，Sensitive是default（false）。
我希望两个查询都返回结果。或者两个查询都失败。
为什么一个失败了，另一个却没有？

apache-spark

来源：https://stackoverflow.com/questions/75383698/why-different-behavior-when-mixed-case-are-used-vs-same-case-are-used-in-spark