我正在尝试为kickstarter.com中列出的一些项目提取特定数据。
Kickstarter.com 使用GraphQL,我试图复制该API,它与Python请求库一起工作,但当我在零碎的请求中使用它时,它一直返回错误403。
我假设问题出在content-type中,但我没有找到应该使用的正确类型,注意当我使用普通请求库时,它的工作方式与此完全相同。
def start_requests(self):
url = "https://www.kickstarter.com/graph"
payload = json.dumps([
{
"operationName": "Campaign",
"variables": {
"slug": "leightonconnor/akashic-titan-blue-bolt"
},
"query": "query Campaign($slug: String!) {\n project(slug: $slug) {\n id\n isSharingProjectBudget\n risks\n story(assetWidth: 680)\n currency\n spreadsheet {\n displayMode\n public\n url\n data {\n name\n value\n phase\n rowNum\n __typename\n }\n dataLastUpdatedAt\n __typename\n }\n environmentalCommitments {\n id\n commitmentCategory\n description\n __typename\n }\n __typename\n }\n}\n"
}
])
headers = {
'content-type': 'application/json',
'x-csrf-token': 'AZsT67Z9s-LHZt6ZJXLSQWJlNdd7biKz2XDfFMkcYMZrNufH1OWoFhNBlXIvxCrxKRzV6l8bG_Z6QlcRoYMe_g',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36',
'cookie': '_ksr_session=fc2U7qXXaRN91foNiE53NyU3s181NZO0Ll57xPkYxZ5iyUNgus35a0HwsPBTfViBY%2ByAKbtpRirAVLxOGKzG%2BYMOmsLRBPujZep%2Fca%2B1%2FXzW3xX56VXkh5w6ItYhIctEFifQQhw3rTmvoljyHw%3D%3D--4pK6xBEgChjqgmte--LH4Q1qSnhU%2FYX9JgTzGuSQ%3D%3D;'
}
print('..ok')
yield scrapy.Request(url, method="POST", headers=headers, body=payload, callback=self.parse_project)
退货:
2022-02-23 07:06:55 [scrapy.core.engine] DEBUG: Crawled (403) <POST https://www.kickstarter.com/graph> (referer: None)
2022-02-23 07:06:55 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://www.kickstarter.com/graph>: HTTP status code is not handled or not allowed
Python中的代码请求(工作):
import requests
import json
url = "https://www.kickstarter.com/graph"
payload = json.dumps([
{
"operationName": "Campaign",
"variables": {
"slug": "leightonconnor/akashic-titan-blue-bolt"
},
"query": "query Campaign($slug: String!) {\n project(slug: $slug) {\n id\n isSharingProjectBudget\n risks\n story(assetWidth: 680)\n currency\n spreadsheet {\n displayMode\n public\n url\n data {\n name\n value\n phase\n rowNum\n __typename\n }\n dataLastUpdatedAt\n __typename\n }\n environmentalCommitments {\n id\n commitmentCategory\n description\n __typename\n }\n __typename\n }\n}\n"
}
])
headers = {
'content-type': 'application/json',
'x-csrf-token': 'AZsT67Z9s-LHZt6ZJXLSQWJlNdd7biKz2XDfFMkcYMZrNufH1OWoFhNBlXIvxCrxKRzV6l8bG_Z6QlcRoYMe_g',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36',
'cookie': '_ksr_session=fc2U7qXXaRN91foNiE53NyU3s181NZO0Ll57xPkYxZ5iyUNgus35a0HwsPBTfViBY%2ByAKbtpRirAVLxOGKzG%2BYMOmsLRBPujZep%2Fca%2B1%2FXzW3xX56VXkh5w6ItYhIctEFifQQhw3rTmvoljyHw%3D%3D--4pK6xBEgChjqgmte--LH4Q1qSnhU%2FYX9JgTzGuSQ%3D%3D;'
}
response = requests.request("POST", url, headers=headers, data=payload)
print(response.status_code)
print(response.json()[0]['data']['project']['risks'])
2条答案
按热度按时间tzdcorbm1#
以下是它对我的作用:
1.打开要刮取的页面。
1.查看检查工具中的网络选项卡。
1.查找包含所需信息的GraphQl请求。
1.右键点击它,转到复制〉复制为curl(bash)。(这是假设你使用的是chrome,我想其他浏览器也有,但我使用chrome)。
1.转到curl2scrapy并粘贴curl命令。它将给予你头和有效负载。
1.在运行之前,请将查询中的所有
\n
替换为\\n
。sbdsn5lh2#
以防万一有人来这里(像我)谁是挣扎在一般作出后请求一个graphql api(不是具体的kickstarter).我最初的情况是一样的,我有一个工作请求.请求,但无法将其转换为Scrapy.
tldr:比较你的完整请求在我的情况下,零碎的请求标题是不够的。
一般来说,这样的东西应该与scrapy(在本例中为scrapy shell)一起使用:
但是请记住,请求可能会像scrapy那样以其他方式修改你的请求。特别是如果你有自定义的中间件或其他东西。所以请检查你的头是否包含正确的条目,例如。
或
为了比较您的请求,Scrappy Discord Channel中的某个人建议使用http://httpbin.org/作为工具,该工具具有返回状态200的端点。之后,您可以比较响应正文和标题,以查找敏感差异。