hiveudf与python

5n0oy7gb  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(339)

我对Python、Pandas和Hive都是新手,一定会很感激你给我一些建议。
我有下面的python代码,我想在hive中将其转换为一个udf。只是我不想将一个csv作为输入,进行转换,然后导出另一个csv,我想将一个配置单元表作为输入,然后将结果导出为一个包含转换数据的新配置单元表。
python代码:

import pandas as pd
data = pd.read_csv('Input.csv')
df = data
df = df.set_index(['Field1','Field2'])
Dummies=pd.get_dummies(df['Field3']).reset_index()
df2=Dummies.drop_duplicates()
df3=df2.groupby(['Field1','Field2']).sum()
df3.to_csv('Output.csv')
68bkxrlz

68bkxrlz1#

你可以利用 TRANSFORM 函数使用python编写的自定义项。这里和这里概述了详细的步骤。

相关问题