apachenutch在限制之后刷新gora记录

vfhzx4xs  于 2021-05-31  发布在  Hadoop
关注(0)|答案(1)|浏览(361)

我已经用hadoop/hbase生态系统配置了nutch2.3.1。我没有改变 gora.buffer.read.limit 以及 gora.buffer.read.limit i、 例如,在这两种情况下都使用默认值10000。在生成阶段,我将topn设置为100000。在生成作业期间,我得到以下信息

org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records

作业完成后,我发现100000个URL被标记为我想要的回迁。但我不知道上面的警告显示了什么?gora.buffer.read.limit对我的爬网有什么影响?有人能指引吗?

ldioqlga

ldioqlga1#

日志写在这里。默认情况下,缓冲区是在写入10000条记录后刷新的,因此必须对其进行配置 gora.buffer.write.limit60000 (在 core-site.xml 或者 mapred-site.xml 或者代码?)。
这并不重要,因为它是在信息级别。它只通知写入缓冲区将被写入存储器。每次你打电话的时候都会有写作过程 store.flush() ,或 gora.buffer.write.limit 批量大小。

相关问题