如何将spark map与.net一起用于spark?就像在python中:
nums=sc.parallelize([1,2,3,4])
squared=nums.map(lambda x: x*x).collect);
规模:
val input=sc.parallelize([1,2,3,4])
val res=input.map(x=>x*x)
但是.NETDataFrame没有名为map的函数
本文件(https://docs.microsoft.com/en-us/dotnet/api/microsoft.spark.sql.functions.map?view=spark-dotnet)还没有演示。
1条答案
按热度按时间dsekswqp1#
这个
map
函数属于RDDAPI,而.net实现了DataFrameAPI(又名SparkSQL)。你需要使用正确的函数,比如,Select
转换数据。所以,如果你把数据放到数据框里df
,然后你可以做一些类似于map
与df.Select(df["col"]*df["col"])
等等。请参见spark.net repo中的示例。