我正试着从网上阅读“英语”网页 Common Crawl
. 我在做这些 Hadoop
亚马逊界面中的作业。请看下面的代码,那是mapper部分。我没有减速机。
# !/usr/bin/php
<?php
$word2count = array();
$counter = 0;
$closeit = false;
while (($closeit == false)&& (($line = fgets(STDIN)) !== false)) {
$counter++;
$line = strtolower(trim($line));
echo "$line\n";
if($counter > 100)
{
$closeit = true;
}
}
echo "mapper1\n";
?>
在这里,这段代码将阅读本文的前100行。我如何才能改变这一点,使这将只阅读“英语”的文章?除此之外,我应该使用哪个数据集?
请帮忙。
1条答案
按热度按时间pgky5nke1#
你可以在读一行或几行之后使用语言检测器。下面是一些描述如何在php中执行此操作的代码:http://phpir.com/language-detection-with-n-grams 它已经配置为检测某些语言,包括英语。