我们已经创建了一个爬虫使用guzzlehttp和其他相关联的库托管在aws服务器上,爬虫和给我们约5000个产品从1个网站,我们一共有4个网站,所以项目的计数来约15k+。
现在这个爬虫程序运行得很好&我们可以在不到一个小时的时间内爬网所有的站点并构建json文件。
然后,我们将这些json文件中的数据导出到wordpress db中,其中的项目是post,其他数据是post\u meta和terms以及分类法。我们现在正在使用wp ajax钩子、过滤器和循环(当然)。
但是导出要花很多时间,而且服务器超时的几率非常高,这和通常apache服务器不打算承受这样的负载一样。
我们需要知道最好的方法。
我们是否在aws本身上创建了一个db,并以某种方式将其连接到wordpress?如果是,那么我们将如何管理自定义post与其meta和terms之间的关系。就像我们在wordpress所在的服务器上添加数据一样,我们可以使用wordpress函数来创建文章并相应地关联数据。
我们是否在wordpress服务器端运行cron作业并为服务器提供更多的电源,这样就不会出现超时问题。我们在现场的服务器上。
或者有更好的方法吗?
任何帮助都将不胜感激。
谢谢!
1条答案
按热度按时间o2gm4chl1#
根据我的经验,我已经在wordpress/woocommerce上创建了超过50000个产品。
我第一次使用woo-commerceapi从外部服务器创建产品时,很容易做到,但需要花费很多时间。这是文件[http://woocommerce.github.io/woocommerce-rest-api-docs/#introduction][1]
对我来说最好的方法是使用wordpress钩子,它会比api更快。您可以将超时设置为-1,它将不再显示。
在我看来,wordpress并不是处理大量数据的最佳选择。
祝你好运