我正试图刮亚马逊书籍使用Cheerio
和request
在nodeJS
但是我不知道如何从下面的HTML
代码中得到Print length
和publication date
<table id="productDetailsTable" cellspacing="0" cellpadding="0" border="0">
<tbody>
<tr>
<td class="bucket">
<h2>Product Details</h2>
<div class="content">
<ul>
<li>
<b>File Size:</b>
2544 KB
</li>
<li>
<b>Print Length:</b>
658 pages
</li>
<li>
<b>Publisher:</b>
Anchor; 1st edition (September 15, 2009)
</li>
</ul>
</div>
</td>
</tr>
</tbody>
</table>
任何形式的帮助都将不胜感激。谢谢。
1条答案
按热度按时间vyu0f0g11#
你可以通过调整Cheerio中的方法来做到这一点:获取normal + text节点和如何在Cheerio中获取由不同HTML标记分隔的文本。
.content()
方法提供normal和text节点:其给出:
还应考虑
其产生:
如果您特别需要发布日期,请尝试:
它打印
September 15, 2009
。