scrapy 从网站抓取并保存到电子表格的不同列中[已关闭]

liwlm1x9  于 2022-11-09  发布在  其他
关注(0)|答案(1)|浏览(110)

已关闭。此问题需要details or clarity。当前不接受答案。
**想要改进此问题吗?**通过editing this post添加详细信息并阐明问题。

8个月前关门了。
Improve this question
假设有一个网站有一些公司的详细信息列表,例如,名称、总部地区、营业额等。我如何收集这些数据并将其填充到不同的列(如名称、营业额)中,每行都有一个单独公司的详细信息?

7nbnzgx9

7nbnzgx91#

Google工作表允许您使用IMPORTHTML(url, query, index)函数导入html表格或列表。
例如,以维基百科页面List of largest companies by revenue为例。
我们需要主表中的数据,所以我们首先要做的是知道它在页面中占据了什么索引。要做到这一点,我们可以使用document.querySelectorAll('table')$$('table'),从结果中可以看到,我们需要的表在数组的位置5,所以在我们的google工作表中,我们可以用途:

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_largest_companies_by_revenue","table",5)

在这里,您应该将查询参数更改为list,并使用上面描述的方法查找它在页面中占据的索引。在任何情况下,您都可以使用IMPORTXML(url, xpath_query),并且知道信息的XPath,您可以想出类似的解决方案。

相关问题