如何用它来训练大型数据集

juzqafwq 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(276)

我正在使用斯坦福大学的ner-crf，想训练一个大的数据集，比如说10万篇新闻文章。如何训练数据，需要多长时间？我是机器学习领域的新手，想了解一些方向。
问题1：所有这些变量意味着什么？我应该特别注意哪些？ numClasses: 8 numDocuments: 100 numDatums: 48721 numFeatures: 168489 Time to convert docs to data/labels: 1.0 seconds numWeights: 4317368 QNMinimizer called on double function of 4317368 variables, using M = 25. 问题2：我应该在一台机器上运行培训，还是在像hadoop这样的分布式系统上运行培训？
问题3：计算似乎是cpu和内存密集型的，我如何克服这些要求？

hadoop machine-learning stanford-nlp

来源：https://stackoverflow.com/questions/35792390/how-to-train-large-datasets-with-stanford-ner-cfr

1条答案

按热度按时间

zbdgwd5y1#

你能提供更多关于你的训练数据的细节吗。通常，您要训练一个基于人类标记数据的ner系统，比如2003年的conll数据集。你有多少人类标记的数据？
ner系统的常见问题有一些关于减少内存的建议：
http://nlp.stanford.edu/software/crf-faq.shtml#d
此时，不能在多台机器上运行ner训练。
我对此并不乐观，但我认为在默认情况下，CRFClassizer在评估渐变时将使用多线程…如果它不使用多线程，则在属性中添加以下内容将导致它开始使用指定线程数的多线程：

multiThreadGrad=4

赞(0）回复(0）举报 2021-06-02

我来回答

如何用它来训练大型数据集

1条答案

相关问题

热门标签

最新问答