如何用它来训练大型数据集

juzqafwq  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(260)

我正在使用斯坦福大学的ner-crf,想训练一个大的数据集,比如说10万篇新闻文章。如何训练数据,需要多长时间?我是机器学习领域的新手,想了解一些方向。
问题1:所有这些变量意味着什么?我应该特别注意哪些? numClasses: 8 numDocuments: 100 numDatums: 48721 numFeatures: 168489 Time to convert docs to data/labels: 1.0 seconds numWeights: 4317368 QNMinimizer called on double function of 4317368 variables, using M = 25. 问题2:我应该在一台机器上运行培训,还是在像hadoop这样的分布式系统上运行培训?
问题3:计算似乎是cpu和内存密集型的,我如何克服这些要求?

zbdgwd5y

zbdgwd5y1#

你能提供更多关于你的训练数据的细节吗。通常,您要训练一个基于人类标记数据的ner系统,比如2003年的conll数据集。你有多少人类标记的数据?
ner系统的常见问题有一些关于减少内存的建议:
http://nlp.stanford.edu/software/crf-faq.shtml#d
此时,不能在多台机器上运行ner训练。
我对此并不乐观,但我认为在默认情况下,CRFClassizer在评估渐变时将使用多线程…如果它不使用多线程,则在属性中添加以下内容将导致它开始使用指定线程数的多线程:

multiThreadGrad=4

相关问题