我试图从使用tldextract
的几个链接中提取URL。由于我的链接是在不同的格式,任何人都可以帮助我提取的URL。
import tldextract
ext = tldextract.extract('booking.com__booking.com_content_privacy.html?label=gen173nr-1FCAEoggI46AdIM1gEaLUBiAEBmAExuAEHyAEP2AEB6AEB-AECiAIBqAIDuALVsdeSBsACAdICJDBkZWExNDc4LWZ')
因此,在上面示例中,我想提取booking.com
,但它没有给予期望结果。
1条答案
按热度按时间bsxbgnwa1#
你需要提供正确的输入。
booking.com__booking.com_content_privacy.html?label=gen173nr-1FCAEoggI46AdIM1gEaLUBiAEBmAExuAEHyAEP2AEB6AEB-AECiAIBqAIDuALVsdeSBsACAdICJDBkZWExNDc4LWZ
是无效的URL。以下是您需要的示例:更多的例子和用法在这里:https://github.com/john-kurkowski/tldextract可能,
tldextract
不是适合您的库。你需要处理这些URL和进程。可能,将__
替换为/
。它更多的是数据清理任务,并且非常特定于您的输入数据。这可能有助于Extract domain from URL in python