linux 如何从网站下载网址并将其保存在文件中(wget,curl)?

pieyvz9o  于 2022-12-18  发布在  Linux
关注(0)|答案(2)|浏览(206)

How to use WGET to separate the marked links from this side?
这可以用CURL完成吗?
我想从此页下载URL并将其保存在文件中。
我试过了。
wget -r -p -k https://polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2984/585ddf5a3dde69cb58c7f42ba52790a4
linq ·戈弗把地址分开了。

版本

如何从终端下载地址到文件?
可以在WGET的帮助下完成吗?
它可以在CURL的帮助下完成吗?
I want to download addresses from this page and save them to the file.
我想保存这些链接。
` https://polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2984/585ddf5a3dde69cb58c7f42ba52790a4
https://polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2985/e15e664718ef6c0dba471d59c4a1928a
https://polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2986/58edb8e0f06dc3da40c255e50b3839cf
'第1版

ffx8fchx

ffx8fchx1#

您将需要使用类似于
Download Serialized DOM
我把它添加到我的Firefox浏览器,它的工作,虽然它是有点慢,唯一的时间,你知道它是完成时,.html.part文件消失,为相应的**.html文件,您将使用Add-on按钮保存。
基本上,这会将
整个网页**(不包括二进制文件,即图像、视频等)保存为单个文本文件
此外,只有在保存这些文件时,开发人员才指出存在一个bug,您必须允许“在私有模式下使用”来绕过bug
下面是显示的全季44索引页的一个片段(注意地址栏中的地址):

因为我没有你的权限我不能复制,但是服务器对我隐藏了个人视频的页面(当你点击图片时会看到什么),因为我没有登录权限。他们给予我的是索引,而不是地址栏中的地址(他们的安全进程在工作)。不过,索引页可能应该在“.../sezon-44/5027472/”之后显示一些不同的内容。

使用保存的DOM文件作为输入,以下内容将提取必要的引用:

#!/bin/sh

###
### LOGIC FLOW => CONFIRMED VALID
###

DBG=1
#URL="https://polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2984/585ddf5a3dde69cb58c7f42ba52790a4"

###
### Completely expanded and populated DOM file,
### as captured by Firefox extension "Download Serialized DOM"
###
### Extension is slow but apparently very functional.
###

INPUT="test_77_Serialized.html"

BASE=$(basename "$0" ".sh")
TMP="${BASE}.tmp"
HARVESTED="${BASE}.harvest"
DISTILLED="${BASE}.urls"

#if [ ! -s "${TMP}" ]
#then
#   ### Non-serialized
#   wget -O "${TMP}" "${URL}"
#fi

### Each 'more' step is to allow review of outputs to identify patterns which are to be used for the next step.
cp -p ${INPUT} "${TMP}"
test ${DBG} -eq 1 && more ${TMP}


sed 's+\<a\ +\n\<a\ +g' "${TMP}" >"${TMP}.2"

URL_BASE=$( grep 'tiba=' ${TMP}.2       |
    sed 's+tiba=+\ntiba=+'  |
    grep -v 'viewport'  |
    cut -f1 -d\;        |
    cut -f2 -d\=        |
    cut -f1 -d\% )

echo "\n=======================\n${URL_BASE}\n=======================\n"

sed 's+\<a\ +\n\<a\ +g' "${TMP}" | grep '<a ' >"${TMP}.2"
test ${DBG} -eq 1 && more ${TMP}.2

grep 'title="Pierwsza Miłość - Odcinek' "${TMP}.2" >"${TMP}.3"
test ${DBG} -eq 1 && more ${TMP}.3

### FORMAT:  Typical entry identified for video files

#<a data-testing="list.item.0" title="Pierwsza Miłość - Odcinek 2984" href="/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2984/585ddf5a3dde69cb58c7f42ba52790a4" class="ifodj3-0 yIiYl"></a><div class="sc-1vdpbg2-2 hKhMfx"><img data-src="https://ipla.pluscdn.pl/p/vm2images/9x/9xzfengehrm1rm8ukf7cvzvypv175iin.jpg" alt="Pierwsza Miłość - Odcinek 2984" class="rebvib-0 hIBTLi" src="https://ipla.pluscdn.pl/p/vm2images/9x/9xzfengehrm1rm8ukf7cvzvypv175iin.jpg"></div><div class="sc-1i4o84g-2 iDuLtn"><div class="orrg5d-0 gBnmbk"><span class="orrg5d-1 AjaSg">Odcinek 2984</span></div></div></div></div><div class="sc-1vdpbg2-1 bBDzBS"><div class="sc-1vdpbg2-0 hWnUTt"><

sed 's+href=+\nhref=+' "${TMP}.3"   |
    sed 's+class=+\nclass=+'    |
    grep '^href=' >"${TMP}.4"
test ${DBG} -eq 1 && more ${TMP}.4

awk -v base="${URL_BASE}" -v splitter=\" '{
    printf("https://%s", base ) ;
    pos=index( $0, "href=" ) ;
    if( pos != 0 ){
        rem=substr( $0, pos+6 ) ;
        n=split( rem, var, splitter) ;
        printf("%s\n", var[1] ) ;
    } ;
}' "${TMP}.4" >${TMP}.5
more ${TMP}.5
    
exit

这将为您提供**${TMP}.5**的报告,如下所示:

https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2984/585ddf5a3dde69cb58c7f42ba52790a4
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2985/e15e664718ef6c0dba471d59c4a1928a
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2986/58edb8e0f06dc3da40c255e50b3839cf
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2987/2ebc2e7b13268e74d90cc64c898530ee
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2988/2031529377d3be27402f61f07c1cd4f4
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2989/eaceb96a0368da10fb64e1383f93f513
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2990/4974094499083a8d67158d51c5df2fcb
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2991/4c79d87656dcafcccd4dfd9349ca7c23
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2992/26b4d8808ef4851640b9a2dfa8499a6d
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2993/930aaa5b2b3d52e2367dd4f533728020
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2994/fa78c186bc9414f844f197fd2d673da3
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2995/c059c7b2b54c3c25996c02992228e46b
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2996/4a016aeed0ee5b7ed5ae1c6117347e6a
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2997/1e3dca41d84471d5d95579afee66c6cf
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2998/440d069159114621939d1627eda37aec
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-2999/f54381d4b61f76bb83f072059c15ea84
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-3000/b272901a616147cd9f570750aa450f99
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-3001/3aca6bd8e81962dc4a45fcc586cdcc7f
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-3002/c6500c6e261bd5d65d0bd3a57cd36288
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-3003/35a13bc5e5570ed223c5a0221a8d13f3
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-3004/a5cfb71ed30e704730b8891323ff7d92
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-3005/d86c1308029d78a6b7090503f8bab88e
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-3006/54bba327bc7a1ae7b9b609e7ee11c07c
https://Polsatboxgo.pl/wideo/seriale/pierwsza-milosc/5027238/sezon-44/5027472/pierwsza-milosc-odcinek-3007/17d199a0523df8430bcb1f21d4a5b573

注意:在下图中,“文件夹”和“星星”之间的图标,* 在该图像的地址栏中 *,是下载序列化DOM扩展的按钮,用于将当前显示的页面捕获为完全示例化的DOM文件。

dvtswwa3

dvtswwa32#

要保存上面提供的wget命令的输出,请在命令行末尾添加以下内容:

-O ${vidfileUniqueName}.${fileTypeSuffix}

在这个wget之前,你需要定义如下内容:

vidfileUniqueName=$(echo "${URL}" | cut -f10 -d\/ )

fileTypeSuffix="mp4|avi|mkv"

您只需要从该列表中选择一个后缀类型,并删除其他后缀类型。

相关问题