我一直在尝试使用Scrapy进行网页抓取,我对检索Whatsapp上所有聊天的所有文本消息很感兴趣,以用作机器学习项目的训练数据。我知道有些网站会阻止网络爬虫/抓取器,所以我想知道是否可以使用Scrapy来获取这些消息,如果不可能,我可以使用哪些替代方法?2我知道我可以在每次聊天时点击“电子邮件聊天”选项,但如果我想获得大量的数据,这可能不可行,不仅是从我自己的聊天中,而且从其他愿意让我使用他们的聊天的人那里。
nxowjjhe1#
我认为WhatsApp不会屏蔽爬虫和抓取器。你只能访问你的web.whatsapp.com。你要怎么处理你的消息是你自己的事情。当我编写代码来读/写WhatsApp消息时,我使用了Selenium WebDriver,它可以完全自动化任何浏览器操作。它对WhatsUpp来说太稳定了。它不是完全自动化的。如果你按下F12键并进入网络浏览器的“网络”标签,你会注意到XHR数据包里面有消息。当你在滚动或打开人的过程中加载新消息时,你可以看到它。它看起来像字节数据。谢谢Mohit Jindal。你是对的,有一种方法可以使用浏览器配置文件,就像这样:
from selenium import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add_argument('user-data-dir=selenium/') driver = webdriver.Chrome(options=chrome_options)
它将创建Chrom配置文件在“ selenium /”文件夹。这种方式允许您登录使用您的手机只是最初的时间。
1条答案
按热度按时间nxowjjhe1#
我认为WhatsApp不会屏蔽爬虫和抓取器。你只能访问你的web.whatsapp.com。你要怎么处理你的消息是你自己的事情。当我编写代码来读/写WhatsApp消息时,我使用了Selenium WebDriver,它可以完全自动化任何浏览器操作。它对WhatsUpp来说太稳定了。它不是完全自动化的。如果你按下F12键并进入网络浏览器的“网络”标签,你会注意到XHR数据包里面有消息。当你在滚动或打开人的过程中加载新消息时,你可以看到它。它看起来像字节数据。
谢谢Mohit Jindal。你是对的,有一种方法可以使用浏览器配置文件,就像这样:
它将创建Chrom配置文件在“ selenium /”文件夹。这种方式允许您登录使用您的手机只是最初的时间。