在googlebooks的n-gram数据集上使用适当的资源处理最可行的选项是什么？

mzillmmw 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(370)

我需要从googlebooks的n-gram语料库中为每个目标词计算10000个目标词和几百个上下文词的词共现统计
以下是完整数据集的链接：
谷歌ngram浏览器
很明显，这个数据库大约有2.2tb，包含数千亿行。为了计算单词共现统计，我需要处理每个可能的目标词和上下文词对的全部数据。我目前正在考虑使用hadoop和hive来批量处理数据。考虑到这是一个有一学期时间限制和有限计算资源的学术项目，其他可行的选择是什么。
注意，不需要对数据进行实时查询

hadoop Hive bigdata distributed-computing n-gram

来源：https://stackoverflow.com/questions/15249489/what-are-the-most-feasible-options-to-do-processing-on-google-books-n-gram-datas

1条答案

按热度按时间

5hcedyr01#

hive有一个内置的udf来处理ngramhttps://cwiki.apache.org/hive/statisticsanddatamining.html#statisticsanddatamining-ngrams%2528%2529和contextngrams%2528%2529%253angram频率估计

赞(0）回复(0）举报 2021-06-03

我来回答

在googlebooks的n-gram数据集上使用适当的资源处理最可行的选项是什么？

1条答案

相关问题

热门标签

最新问答