scraping网站

2g32fytz  于 2021-07-06  发布在  Java
关注(0)|答案(0)|浏览(222)
public void conectUrl() throws IOException, InterruptedException {
        product= new ArrayList<>();

        String url = "https://www.continente.pt/stores/continente/pt-pt/public/pages/category.aspx?cat=campanhas#/?page=1&sf=Revelance";

         page = Jsoup.connect(url).userAgent("JSoup scraper").get();

        //get actual page

        Elements paginaAtu=page.getElementsByClass("_actualPage");
        paginaAtual=Integer.parseInt(paginaAtu.attr("value"));

        //get Total Pages
        Elements nextPage=page.getElementsByClass("_actualTotalPages");
        numPaginas =Integer.parseInt(nextPage.attr("value"));

        for(paginaAtual=1;paginaAtual<numPaginas;paginaAtual++) {
            getProductInfo("https://www.continente.pt/stores/continente/pt-pt/public/pages/category.aspx?cat=campanhas#/?page="+paginaAtual+"&sf=Revelance");

        }
    }

总是用不同的url返回相同的结果。我已经搜索了jsoup缓存,我不是第一个问这个问题的人,但是没有人说如何解决这个问题。理论上,jsoup不会缓存url页面。。。
我已经做了代码“睡眠”在30秒内加载新的网址,但仍然不工作,返回总是相同的结果。
有人能帮我吗?先谢谢你。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题