我想从HTML代码中提取特定的信息到dataframe python中,但我不能使用BeautifulSoup
或webscraping技术,因为我不知道信息的位置,我还想拥有与每个信息相关的标签和属性。例如,如果我想获取一本书的价格,而HTML代码包含了描述它的这一行:
<span class="sc-price_3mJ9Z">$12.90<\span>
我的 Dataframe 应该是这样的:
Tag:变量名
属性:类
取值:sc-价格_3mJ9Z
内容:十二元九角
显然,这是一个与自然语言处理有关的问题,但我不知道如何处理它。
1条答案
按热度按时间mrphzbgm1#
如果你真的需要使用
NLP
,我会看到一个子规程NER
-但是因为它是用文本而不是HTML工作的,你可能必须弄清楚需要什么来解决你的具体问题:基于问题的详细程度
它可能不需要
NLP
,使用BeautifulSoup
保持简单,因为你有一个模式(货币符号),可以涵盖大多数情况。选择你喜欢的元素:并且用
.attrs
提取其属性/值,用.text
提取其内容。示例
输出
| | 类|标签|内容|身份证|
| - ------|- ------|- ------|- ------|- ------|
| 无|[“sc-价格_3 mJ 9 Z ']|跨距|十二块九毛|楠|
| 1个|楠|分度|一百二十块九毛|价格|