我想在hadoop上为意大利语实现一个自然语言处理算法
我有两个问题;
如何找到意大利语词干算法?
如何在hadoop中集成?
这是我的密码
String pathSent=...tagged sentences...;
String pathChunk=....chunked train path....;
File fileSent=new File(pathSent);
File fileChunk=new File(pathChunk);
InputStream inSent=null;
InputStream inChunk=null;
inSent = new FileInputStream(fileSent);
inChunk = new FileInputStream(fileChunk);
POSModel posModel=POSTaggerME.train("it", new WordTagSampleStream((
new InputStreamReader(inSent))), ModelType.MAXENT, null, null, 3, 3);
ObjectStream stringStream =new PlainTextByLineStream(new InputStreamReader(inChunk));
ObjectStream chunkStream = new ChunkSampleStream(stringStream);
ChunkerModel chunkModel=ChunkerME.train("it",chunkStream ,1, 1);
this.tagger= new POSTaggerME(posModel);
this.chunker=new ChunkerME(chunkModel);
inSent.close();
inChunk.close();
1条答案
按热度按时间aor9mmx11#
你需要一个语法句子引擎:
当你标记了这个句子,你就可以教opennlp了。
在hadoop上创建自定义Map
在hadoop上创建自定义reduce
配置两者