使用python的re regex从URL中提取域名

e0bqpujr 于 2023-04-22 发布在 Python

关注(0)|答案(4)|浏览(154)

我想输入一个URL并提取域名，该域名是http：//或https：//之后的字符串，包含字符串，数字，点，下划线或破折号。
我编写了正则表达式并使用了python的re模块，如下所示：

import re
m = re.search('https?://([A-Za-z_0-9.-]+).*', 'https://google.co.uk?link=something')
m.group(1)
print(m)

我的理解是，m.group(1)将提取re.search中的between（）部分。
我期望的输出是：google.co.uk但是我得到了这个：

<_sre.SRE_Match object; span=(0, 35), match='https://google.co.uk?link=something'>

你能告诉我如何使用re来实现我的要求吗？

regex

来源：https://stackoverflow.com/questions/55862019/extract-domain-name-from-url-using-pythons-re-regex

4条答案

按热度按时间

j91ykkif1#

你需要写

print(m.group(1))

更好的是-之前有一个条件：

m = re.search('https?://([A-Za-z_0-9.-]+).*', 'https://google.co.uk?link=something')
if m:
    print(m.group(1))

赞(0）回复(0）举报 2023-04-22

7eumitmz2#

Jan已经为此提供了解决方案。但需要注意的是，我们可以在不使用re的情况下实现相同的解决方案。它只需要!"#$%&\'()*+,-./:;<=>?@[\\]^_{|}~用于验证目的。同样可以从string`包中获得。

def domain_finder(link):
    import string
    dot_splitter = link.split('.')

    seperator_first = 0
    if '//' in dot_splitter[0]:
        seperator_first = (dot_splitter[0].find('//') + 2)

    seperator_end = ''
    for i in dot_splitter[2]:
        if i in string.punctuation:
            seperator_end = i
            break

    if seperator_end:
        end_ = dot_splitter[2].split(seperator_end)[0]
    else:
        end_ = dot_splitter[2]

    domain = [dot_splitter[0][seperator_first:], dot_splitter[1], end_]
    domain = '.'.join(domain)

    return domain

link = 'https://google.co.uk?link=something'
domain = domain_finder(link=link)
print(domain) # prints ==> 'google.co.uk'

这只是另一种不使用re解决相同问题的方法。

赞(0）回复(0）举报 2023-04-22

yquaqz183#

有一个名为tldextract的库，在这种情况下非常可靠。
下面是它的工作方式

import tldextract

def extractDomain(url):
    if "http" in str(url) or "www" in str(url):
        parsed = tldextract.extract(url)
        parsed = ".".join([i for i in parsed if i])
        return parsed
    else: return "NA"

op = open("out.txt",'w')
# with open("test.txt") as ptr:
#   for lines in ptr.read().split("\n"):
#       op.write(str(extractDomain(lines)) + "\n")

print(extractDomain("https://test.pythonhosted.org/Flask-Mail/"))

输出如下，

test.pythonhosted.org

赞(0）回复(0）举报 2023-04-22

ekqde3dh4#

最简单的方法是使用urllib包

from urllib.parse import urlsplit
s = "https://google.co.uk?link=something"
urlsplit(s).netloc

其输出为

'google.co.uk'

赞(0）回复(0）举报 2023-04-22

我来回答

使用python的re regex从URL中提取域名

4条答案

相关问题

热门标签

最新问答