从单个配置单元udf创建多个列

ecfdbz9o  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(310)

我正在使用amazonemr和hive0.11。我正在尝试创建一个配置单元udf,它将从一个udf调用返回多个列。
例如,我想调用下面这样的自定义项,并返回几个(命名的)列。

SELECT get_data(columnname) FROM table;

我很难找到这样做的文件,但听说这是可能的,如果使用一个通用的自定义项。有人知道需要从evaluate()方法返回什么才能工作吗?

x4shl7ld

x4shl7ld1#

我只使用genericudtf。在编写genericudtf的udf扩展之后,udtf应该实现两个重要的method:initialize and 评估。
在initialize中,可以检查参数类型并设置返回对象类型。例如,使用objectinspectorfactory.getstandardstructobjectinspector,可以使用structfieldnames参数中的名称和structfieldobjectinspectors中的列值类型指定输出列。输出列大小是structfieldnames列表的大小。有两种类型system:java and hadoop。java的objectinspector以javaxxobjectinspector开头,否则以writeablexxobjectinspector开头。
在这个过程中,它类似于普通的自定义项。除此之外,您应该使用从initialize()保存的objectinspector将对象转换为具体值,如字符串、整数等。调用forward函数输出一行。在row对象forwardcolobj中,可以指定columns对象。
下面是一个简单的例子:

public class UDFExtractDomainMethod extends GenericUDTF {

    private static final Integer OUT_COLS = 2;
    //the output columns size
    private transient Object forwardColObj[] = new Object[OUT_COLS];

    private transient ObjectInspector[] inputOIs;

    /**
    *
    * @param argOIs check the argument is valid.
    * @return the output column structure.
    * @throws UDFArgumentException
    */
    @Override
    public StructObjectInspector initialize(ObjectInspector[] argOIs) throws UDFArgumentException {
        if (argOIs.length != 1 || argOIs[0].getCategory() != ObjectInspector.Category.PRIMITIVE
                || !argOIs[0].getTypeName().equals(serdeConstants.STRING_TYPE_NAME)) {
            throw new UDFArgumentException("split_url only take one argument with type of string");
        }

        inputOIs = argOIs;
        List<String> outFieldNames = new ArrayList<String>();
        List<ObjectInspector> outFieldOIs = new ArrayList<ObjectInspector>();
        outFieldNames.add("host");
        outFieldNames.add("method");
        outFieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
        //writableStringObjectInspector correspond to hadoop.io.Text
        outFieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
        return  ObjectInspectorFactory.getStandardStructObjectInspector(outFieldNames, outFieldOIs);
    }

    @Override
    public void process(Object[] objects) throws HiveException {
        try {
            //need OI to convert data type to get java type
            String inUrl = ((StringObjectInspector)inputOIs[0]).getPrimitiveJavaObject(objects[0]);
            URI uri = new URI(inUrl);
            forwardColObj[0] = uri.getHost();
            forwardColObj[1] = uri.getRawPath();
            //output a row with two column
            forward(forwardColObj);
        } catch (URISyntaxException e) {
            e.printStackTrace();
        }
    }

    @Override
    public void close() throws HiveException {

    }
}

相关问题