我尝试了三种不同的技术来抓取一个名为'table-light'的表,但实际上没有任何效果。下面的代码显示了我提取数据的尝试。
import pandas as pd
tables = pd.read_html('https://finviz.com/groups.ashx?g=industry&v=120&o=marketcap')
tables
############################################################################
import requests
import pandas as pd
url = 'https://finviz.com/groups.ashx?g=industry&v=120&o=marketcap'
html = requests.get(url).content
df_list = pd.read_html(html)
df = df_list[10]
print(df)
############################################################################
import requests
from bs4 import BeautifulSoup
url = "https://finviz.com/groups.ashx?g=industry&v=120&o=marketcap"
r = requests.get(url)
html = r.text
soup = BeautifulSoup(html, "html.parser")
table = soup.find_all('table-light')
print(table)
我试图从中提取数据的表名为'table-light'。我想获取所有列和所有144行。我该怎么做呢?
1条答案
按热度按时间ssgvzors1#
您可以尝试设置
User-Agent
header以获得正确的HTML(而不是验证码页面):图纸: