我正在尝试从谷歌获取新闻标题。到目前为止,我使用的是GoogleNews API,我有这样的代码:
from GoogleNews import GoogleNews
from newspaper import Article
import pandas as pd
googlenews = GoogleNews(start='01/01/2022', end='31/12/2022')
googlenews.search('Apple')
result = googlenews.result()
df = pd.DataFrame(result)
print(df.head())
for i in range(2,50):
googlenews.getpage(i)
result = googlenews.result()
df = df.append(result)
df = pd.DataFrame(df)
df = df.drop_duplicates(subset=['title'], keep='last')
df.reset_index(drop=True, inplace=True)
print(df)
它工作正常,代码给了我大约234条新闻。但是,我想知道是否有办法得到更多的新闻,例如400条。
我也试过其他的库,但是他们最多只能返回100个搜索结果,所以我想知道是否有其他的API或者方法可以得到更多的结果。
1条答案
按热度按时间r7knjye21#
使用pagination:
默认返回第一页结果,您不需要再次获取第一页,否则可能会得到重复的结果。要获取其他页的搜索结果: