我正在使用stormcrawler 1.16和elasticsearch-7.2.0。java版本是1.8.0ü。storm版本是1.2.3,maven版本是3.6.3。
我用mvn原型创建了一个项目-
mvn archetype:generate -DarchetypeGroupId=com.digitalpebble.stormcrawler -
DarchetypeArtifactId=storm-crawler-elasticsearch-archetype -DarchetypeVersion=LATEST
我制作了一个seeds.txt文件,并放置了9个url,仅用于测试,并在--remote模式下使用reaedme.md文件中给出的命令提交了拓扑。
它成功运行并按预期爬网页面。
但当我在seeds.txt文件中放入8000个url时,问题就出现了。
我再次运行es\u indexinit.sh文件,并使用与之前相同的命令提交拓扑。然后我得到这个错误-
at java.lang.Thread.run(Thread.java:748) [?:1.8.0_252]
2020-06-12 11:26:11.416 c.d.s.e.p.AggregationSpout pool-12-thread-1 [ERROR] [spout #1] Exception with ES query
java.net.ConnectException: Connection refused
at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) ~[?:1.8.0_252]
at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:714) ~[?:1.8.0_252]
at org.apache.http.impl.nio.reactor.DefaultConnectingIOReactor.processEvent(DefaultConnectingIOReactor.java:174) [stormjar.jar:?]
at org.apache.http.impl.nio.reactor.DefaultConnectingIOReactor.processEvents(DefaultConnectingIOReactor.java:148) [stormjar.jar:?]
at org.apache.http.impl.nio.reactor.AbstractMultiworkerIOReactor.execute(AbstractMultiworkerIOReactor.java:351) [stormjar.jar:?]
at org.apache.http.impl.nio.conn.PoolingNHttpClientConnectionManager.execute(PoolingNHttpClientConnectionManager.java:221) [stormjar.jar:?]
at org.apache.http.impl.nio.client.CloseableHttpAsyncClientBase$1.run(CloseableHttpAsyncClientBase.java:64) [stormjar.jar:?]
at java.lang.Thread.run(Thread.java:748) [?:1.8.0_252]
然后在worker.log文件中查找错误。我在那边发现了同样的错误。然后我检查碎片的健康状况-
{
"cluster_name" : "my-cluster1",
"status" : "green",
"timed_out" : false,
"number_of_nodes" : 1,
"number_of_data_nodes" : 1,
"active_primary_shards" : 2,
"active_shards" : 2,
"relocating_shards" : 0,
"initializing_shards" : 0,
"unassigned_shards" : 0,
"delayed_unassigned_shards" : 0,
"number_of_pending_tasks" : 0,
"number_of_in_flight_fetch" : 0,
"task_max_waiting_in_queue_millis" : 0,
"active_shards_percent_as_number" : 100.0,
"indices" : {
".kibana_task_manager" : {
"status" : "green",
"number_of_shards" : 1,
"number_of_replicas" : 0,
"active_primary_shards" : 1,
"active_shards" : 1,
"relocating_shards" : 0,
"initializing_shards" : 0,
"unassigned_shards" : 0,
"shards" : {
"0" : {
"status" : "green",
"primary_active" : true,
"active_shards" : 1,
"relocating_shards" : 0,
"initializing_shards" : 0,
"unassigned_shards" : 0
}
}
},
".kibana_1" : {
"status" : "green",
"number_of_shards" : 1,
"number_of_replicas" : 0,
"active_primary_shards" : 1,
"active_shards" : 1,
"relocating_shards" : 0,
"initializing_shards" : 0,
"unassigned_shards" : 0,
"shards" : {
"0" : {
"status" : "green",
"primary_active" : true,
"active_shards" : 1,
"relocating_shards" : 0,
"initializing_shards" : 0,
"unassigned_shards" : 0
}
}
}
}
}
碎片的健康是绿色的。现在,如果我在一个不同的或新的项目中提交爬虫拓扑,拓扑仍然是理想的,并且不发射或转换任何元组。
我使用的是彼此兼容的版本吗?我应该使用Java11进行elasticsearch还是可以正常工作?
关于示例的详细信息-我正在使用ec2 medium intance Ubuntu18.04和4GB内存。
有人能解释一下问题是什么吗?
1条答案
按热度按时间unguejic1#
除非要删除状态索引中的url,否则不需要再次运行esinitscript。如果您多次运行它,将没有任何状态,这可能是拓扑处于空闲状态的原因。
没有理由在seeds文件中有更多的url会导致问题,我们通常有大于1m url的seed文件,这不是问题。