excel 每分钟刷新一次的Web抓取数据

ia2d9nvy  于 2023-01-03  发布在  其他
关注(0)|答案(1)|浏览(118)

我正试图从这个每分钟刷新的网站中提取一些数据。我试过研究网页抓取,也试过Chrome扩展,但似乎都不适合我。
关于网站的一些背景信息:这是一个网站,人们去监督投标价格的COE(证书的权利,汽车在新加坡)。每隔一个星期三,从1430到1600,我将不得不手动复制和粘贴到一个Excel电子表格之前,它刷新每分钟的数据。
COE的详细信息

我附上截图进一步说明。这是网站刮; https://www.onemotoring.com.sg/1m/coe/coeDetail.html

qybjjes1

qybjjes11#

使用AWS Lambda和node-js可以获得非常低的成本。
创建一个Lambda函数,并在您的cron计划中触发它来抓取网站。
https://github.com/bda-research/node-crawler
以简化爬行。
另外,
要获取页面中的确切节点,请使用服务器端jquery或任何可以从爬网页面中提取元素的渐进式脚本。
获得详细信息后,可以将它们存储在DynamoDB下,DynamoDB是一个延迟非常低的nosql。
您可以使用https://github.com/clarkie/dynogels之类的ODM来访问DynamoDB,只需非常少的代码。
希望有帮助。

相关问题