我正在进行一个涉及精油的项目,需要帮助使用Python从www.example.com网站访问数据essentialoils.org/db。具体来说,我想从数据库中检索单独的数据表,并将它们组装成一个CSV文件,以供进一步分析。
我有访问www.example.com数据库的必要凭据essentialoils.org/db。我想自动获取数据并将其合并到单个文件中的过程。下面是数据集的屏幕截图,显示了when opening the link essentialoils.org/db和when clicking on each element separately it opens the data sheet for that particular essential oil
我的目标是编写一个Python脚本,它可以使用我的凭据登录到网站,导航到每个数据表,检索数据,并将其保存为CSV格式。我熟悉使用BeautifulSoup和Selenium等库的Web抓取技术,但我不确定如何处理身份验证过程并在网站上的多个页面中导航。
有人能指导我如何完成这项任务吗?任何建议,示例代码片段,或建议的库将不胜感激。
提前感谢您的帮助!
1条答案
按热度按时间xsuvu9jc1#
我想你需要处理身份验证过程,并在多个页面中导航
1.安装必要库
1.导入所需的库
1.设置selenium WebDriver
1.打开
essentialoils.org/db
+使用凭据登录1.导航数据表+检索数据
1.将数据保存到CSV文件
Ps:替换
path_to_chromedriver
为系统上chrome WebDriver可执行文件的实际路径+更新实际登录凭据+如果网站结构发生变化,请调整代码中的XPath/其他定位器策略(使用浏览器开发工具检查元素并找到合适的定位器)