使用tldextract库python从链接中提取URL/TLD

2j4z5cfb 于 2023-06-25 发布在 Python

关注(0)|答案(1)|浏览(145)

我试图从使用tldextract的几个链接中提取URL。由于我的链接是在不同的格式，任何人都可以帮助我提取的URL。

import tldextract

ext = tldextract.extract('booking.com__booking.com_content_privacy.html?label=gen173nr-1FCAEoggI46AdIM1gEaLUBiAEBmAExuAEHyAEP2AEB6AEB-AECiAIBqAIDuALVsdeSBsACAdICJDBkZWExNDc4LWZ')

因此，在上面示例中，我想提取booking.com，但它没有给予期望结果。

python-3.x

来源：https://stackoverflow.com/questions/72997164/extracting-url-tld-from-link-using-tldextract-library-python

1条答案

按热度按时间

bsxbgnwa1#

你需要提供正确的输入。booking.com__booking.com_content_privacy.html?label=gen173nr-1FCAEoggI46AdIM1gEaLUBiAEBmAExuAEHyAEP2AEB6AEB-AECiAIBqAIDuALVsdeSBsACAdICJDBkZWExNDc4LWZ是无效的URL。以下是您需要的示例：

In [35]: tldextract.extract('https://www.booking.com/hotel/fr/sunny.en-gb.html?aid=304142&label=gen173nr-1FCAQoggJCI3NlYXJjaF9wYXJpcywgaWxlIGRlIGZyYW5jZSwgZnJhbmNlSAlYBGhsiAEBmAEJuAEZyAEM2AEB6AEB-AEDiAIBqAIDuALp
    ...: hrCkBsACAdICJDg3YTU5MjQzLTA1NWYtNDc3NS1hZTBhLTcyNDhjZDZmN2EzNtgCBeACAQ&sid=60f41096ef20067ac373b5ad3474226b&all_sr_blocks=29237402_92229029_2_2_0;checkin=2023-07-22;checkout=2023-07-29;dist=0;group_adul
    ...: ts=2;group_children=0;hapos=1;highlighted_blocks=29237402_92229029_2_2_0;hpos=1;matching_block_id=29237402_92229029_2_2_0;no_rooms=1;req_adults=2;req_children=0;room1=A%2CA;sb_price_type=total;sr_order=
    ...: popularity;sr_pri_blocks=29237402_92229029_2_2_0__95486;srepoch=1686897515;srpvid=87832eb4b6ed00f2;type=total;ucfs=1&#hotelTmpl')
Out[35]: ExtractResult(subdomain='www', domain='booking', suffix='com')

更多的例子和用法在这里：https://github.com/john-kurkowski/tldextract可能，tldextract不是适合您的库。你需要处理这些URL和进程。可能，将__替换为/。它更多的是数据清理任务，并且非常特定于您的输入数据。这可能有助于Extract domain from URL in python

赞(0）回复(0）举报 2023-06-25

我来回答

使用tldextract库python从链接中提取URL/TLD

1条答案

相关问题

热门标签

最新问答