apachemahout数据库到序列文件

vwkv1x7d 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(329)

我现在正试着和马霍特一起玩。我买了这本书。整个过程是理解和简单的测试数据集，我已经成功了。
现在我有一个分类问题，我想解决。
找到了目标变量，我现在称之为-x。我们数据库中的现有数据已被分类为-1、0和+1。
我们定义了几个预测变量，通过sql查询选择这些变量。
这些是产品的属性：语言，国家，类别（商店），标题，描述。
现在我希望它们直接写入sequencefile，为此我编写了一个小助手类，每次处理sql resultset的新行时，它都会附加到sequence文件中：

public void appendToFile(String classification, String databaseID, String language, String country, String vertical, String title, String description) {
    int count = 0;
    Text key = new Text();
    Text value = new Text();

    key.set("/" + classification + "/" + databaseID);
    //??value.set(message);
    try {
        this.writer.append(key, value);
    } catch (IOException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }
}

如果我只有标题，我可以简单地将其存储在值中-但是如何在特定的键中存储多个值，如country、lang等？
谢谢你的帮助！

hadoop classification mahout

来源：https://stackoverflow.com/questions/18632036/apache-mahout-database-to-sequence-file