NodeJS 我怎么能得到所有的评论/评论从谷歌Map的地方使用 puppet ?(我没有得到所有的,因为页面是可滚动的)

vnjpjtjt  于 2023-01-30  发布在  Node.js
关注(0)|答案(2)|浏览(121)

我正试图从一个地方刮评论/评论,我搜索使用 puppet 戏。我有2个问题:
1.我从当前页面只得到16条评论/评论,而实际上我想要所有的评论/评论(在这种情况下62条评论甚至更多取决于我的搜索),但我认为问题来自页面是可滚动的。
1.我得到一个错误,当我刮评论,没有评论在谷歌Map说:

"(node:13184) UnhandledPromiseRejectionWarning: Error: Evaluation failed: TypeError: Cannot read property 'innerText' of null
at __puppeteer_evaluation_script__:9:38"

,我不知道如何摆脱每次有一个审查,有一个空的评论(我有一些代码几乎在年底试图解决空的评论,但不工作,我尝试了其他一些方法,也没有工作)。
下面是我的代码:

const puppeteer = require('puppeteer'); // Require the Package we need...

let scrape = async () => { // Prepare scrape...

    const browser = await puppeteer.launch({args: ['--no-sandbox', '--disabled-setuid-sandbox']}); // Prevent non-needed issues for *NIX
    const page = await browser.newPage(); // Create request for the new page to obtain...

    const busqueda = 'Alitas+del+Cadillac+Tumbaco';
    const Url = `https://www.google.com/maps/search/${busqueda}`;

    const buscar = '.section-result';
    const click1 = '.widget-pane-link';
    const cajaTexto = '#searchboxinput';

    const comentarioLength = 'section-review-text';
    const comentarios = 'div.section-review:nth-child(Index) > div:nth-child(1) > div:nth-child(3) > div:nth-child(2) > div:nth-child(1) > span:nth-child(4)';

    console.log(comentarioLength);

    //const comentario = 'div.section-review:nth-child(INDEX) > div:nth-child(1) > div:nth-child(3) > div:nth-child(2) > div:nth-child(1) > span:nth-child(4)';

    // Replace with your Google Maps URL... Or Test the Microsoft one...
    //await page.goto('https://www.google.com/maps/place/Microsoft/@36.1275216,-115.1728651,17z/data=!3m1!5s0x80c8c416a26be787:0x4392ab27a0ae83e0!4m7!3m6!1s0x80c8c4141f4642c5:0x764c3f951cfc6355!8m2!3d36.1275216!4d-115.1706764!9m1!1b1');

    await page.goto(Url); // Define the Maps URL to Scrape...
    await page.waitFor(2*1000); // In case Server has JS needed to be loaded...

    await page.click(buscar); //busco caja de texto*/

    await page.waitForNavigation();
    await page.waitFor(2*1000);

    await page.click(click1);

    await page.waitForNavigation();
    await page.waitFor(2*1000);

    console.log(page.url());

    console.log("3");

    await page.evaluate(_ => { // This is just a test, don't really need this!

    });

    await page.waitFor(2*1000);

    console.log('how many?', (await page.$$('.section-review-text')).length);

    //div.section-result:nth-child(1) > div:nth-child(1) > div:nth-child(1) > div:nth-child(1) > div:nth-child(2) > h3:nth-child(1) > span:nth-child(1)

    let listLength = await page.evaluate((sel) => {
        window.scrollBy(0, window.innerHeight);
        return document.getElementsByClassName(sel).length;
    }, comentarioLength);

    console.log(listLength);

    for (let i = 1; i <= listLength; i++) {

        let selectorComentarios = comentarios.replace("Index", i);

        const result = await page.evaluate((sel) => { // Let's create variables and store values...

            return document.querySelector(sel).innerText;

        }, selectorComentarios);

        if(!result){
            continue;
        }

        console.log(i+result);

    }

    /*await page.evaluate(_ => {
        window.scrollBy(0, window.innerHeight)
    })*/

    browser.close(); // Close the Browser...
    return result; // Return the results with the Review...
};

scrape().then((value) => { // Scrape and output the results...

console.log(value); // Yay, output the Results...
});
iqxoj9l9

iqxoj9l91#

这违反了谷歌Map平台的服务条款。
请看第3.2.4段(对滥用服务的限制),内容如下
(a)禁止抓取。客户不得提取、导出、抓取或缓存谷歌Map内容以供在服务之外使用。例如,客户不得:(i)在服务之外预取、索引、存储、重新存储或重新托管谷歌Map内容;(ii)批量下载地理编码;(iii)*复制企业名称、地址或用户评论; * 或(iv)将GoogleMap内容与文本语音转换服务一起使用。根据"Map服务特定条款"中的说明,某些服务允许缓存。
资料来源:https://cloud.google.com/maps-platform/terms/#3-license
很抱歉带来坏消息。

zzlelutf

zzlelutf2#

要解决第一个问题,您需要通过添加如下函数来处理无限滚动:

async function scrollPage(page, scrollContainer) {
  let lastHeight = await page.evaluate(`document.querySelector("${scrollContainer}").scrollHeight`);
  while (true) {
    await page.evaluate(`document.querySelector("${scrollContainer}").scrollTo(0, document.querySelector("${scrollContainer}").scrollHeight)`);
    await page.waitForTimeout(2000);
    let newHeight = await page.evaluate(`document.querySelector("${scrollContainer}").scrollHeight`);
    if (newHeight === lastHeight) {
      break;
    }
    lastHeight = newHeight;
  }
}

在这个函数中,第一个参数是Puppeteer page,第二个参数是一个可滚动的HTML元素(在这个例子中,它的类名是.DxyBCb)。这个函数检查元素的当前scrollHeight,然后滚动到这个高度并再次检查scrollHeight。如果它被加载新元素改变了,这个函数再次重复滚动。
这部分代码中的第二个问题是:

return document.querySelector(sel).innerText;

你需要处理页面上找不到选择器为sel的元素的情况,你可以使用optional chining,它返回undefined而不是抛出错误,并在发生错误时添加一些文本:

return document.querySelector(sel)?.innerText || `Element with selector ${sel} not found on the page`;

现在,如果没有搜索选择器,则evaluate函数返回||后面的文本。
包含超出您问题范围的更详细信息的博客文章:web Scraping Google Maps reviews with Nodejs .

相关问题