带有Scrapy请求的Kickstarter GraphQL API

uttx8gqw 于 2022-11-09 发布在其他

关注(0)|答案(2)|浏览(160)

我正在尝试为kickstarter.com中列出的一些项目提取特定数据。
Kickstarter.com 使用GraphQL，我试图复制该API，它与Python请求库一起工作，但当我在零碎的请求中使用它时，它一直返回错误403。
我假设问题出在content-type中，但我没有找到应该使用的正确类型，注意当我使用普通请求库时，它的工作方式与此完全相同。

def start_requests(self):
    url = "https://www.kickstarter.com/graph"
    payload = json.dumps([
    {
        "operationName": "Campaign",
        "variables": {
        "slug": "leightonconnor/akashic-titan-blue-bolt"
        },
        "query": "query Campaign($slug: String!) {\n  project(slug: $slug) {\n    id\n    isSharingProjectBudget\n    risks\n    story(assetWidth: 680)\n    currency\n    spreadsheet {\n      displayMode\n      public\n      url\n      data {\n        name\n        value\n        phase\n        rowNum\n        __typename\n      }\n      dataLastUpdatedAt\n      __typename\n    }\n    environmentalCommitments {\n      id\n      commitmentCategory\n      description\n      __typename\n    }\n    __typename\n  }\n}\n"
    }
    ])
    headers = {
    'content-type': 'application/json',
    'x-csrf-token': 'AZsT67Z9s-LHZt6ZJXLSQWJlNdd7biKz2XDfFMkcYMZrNufH1OWoFhNBlXIvxCrxKRzV6l8bG_Z6QlcRoYMe_g',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36',
    'cookie': '_ksr_session=fc2U7qXXaRN91foNiE53NyU3s181NZO0Ll57xPkYxZ5iyUNgus35a0HwsPBTfViBY%2ByAKbtpRirAVLxOGKzG%2BYMOmsLRBPujZep%2Fca%2B1%2FXzW3xX56VXkh5w6ItYhIctEFifQQhw3rTmvoljyHw%3D%3D--4pK6xBEgChjqgmte--LH4Q1qSnhU%2FYX9JgTzGuSQ%3D%3D;'
    }
    print('..ok')
    yield scrapy.Request(url, method="POST", headers=headers, body=payload, callback=self.parse_project)

退货：

2022-02-23 07:06:55 [scrapy.core.engine] DEBUG: Crawled (403) <POST https://www.kickstarter.com/graph> (referer: None)
2022-02-23 07:06:55 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://www.kickstarter.com/graph>: HTTP status code is not handled or not allowed

Python中的代码请求（工作）：

import requests
import json

url = "https://www.kickstarter.com/graph"

payload = json.dumps([
  {
    "operationName": "Campaign",
    "variables": {
      "slug": "leightonconnor/akashic-titan-blue-bolt"
    },
    "query": "query Campaign($slug: String!) {\n  project(slug: $slug) {\n    id\n    isSharingProjectBudget\n    risks\n    story(assetWidth: 680)\n    currency\n    spreadsheet {\n      displayMode\n      public\n      url\n      data {\n        name\n        value\n        phase\n        rowNum\n        __typename\n      }\n      dataLastUpdatedAt\n      __typename\n    }\n    environmentalCommitments {\n      id\n      commitmentCategory\n      description\n      __typename\n    }\n    __typename\n  }\n}\n"
  }
])
headers = {
  'content-type': 'application/json',
  'x-csrf-token': 'AZsT67Z9s-LHZt6ZJXLSQWJlNdd7biKz2XDfFMkcYMZrNufH1OWoFhNBlXIvxCrxKRzV6l8bG_Z6QlcRoYMe_g',
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36',
  'cookie': '_ksr_session=fc2U7qXXaRN91foNiE53NyU3s181NZO0Ll57xPkYxZ5iyUNgus35a0HwsPBTfViBY%2ByAKbtpRirAVLxOGKzG%2BYMOmsLRBPujZep%2Fca%2B1%2FXzW3xX56VXkh5w6ItYhIctEFifQQhw3rTmvoljyHw%3D%3D--4pK6xBEgChjqgmte--LH4Q1qSnhU%2FYX9JgTzGuSQ%3D%3D;'
}

response = requests.request("POST", url, headers=headers, data=payload)
print(response.status_code)
print(response.json()[0]['data']['project']['risks'])

scrapy

来源：https://stackoverflow.com/questions/71231638/kickstarter-graphql-api-with-scrapy-requests

2条答案

按热度按时间

tzdcorbm1#

以下是它对我的作用：
1.打开要刮取的页面。
1.查看检查工具中的网络选项卡。
1.查找包含所需信息的GraphQl请求。
1.右键点击它，转到复制〉复制为curl（bash）。（这是假设你使用的是chrome，我想其他浏览器也有，但我使用chrome）。
1.转到curl2scrapy并粘贴curl命令。它将给予你头和有效负载。
1.在运行之前，请将查询中的所有\n替换为\\n。

赞(0）回复(0）举报 2022-11-09

sbdsn5lh2#

以防万一有人来这里（像我）谁是挣扎在一般作出后请求一个graphql api（不是具体的kickstarter）.我最初的情况是一样的，我有一个工作请求.请求，但无法将其转换为Scrapy.
tldr：比较你的完整请求在我的情况下，零碎的请求标题是不够的。
一般来说，这样的东西应该与scrapy（在本例中为scrapy shell）一起使用：

q = """
    query GetSomething($xId: ID!) { 
          x(id: $xId) {
            title}
            }
    """

j = {'query': q, 'variables': {
                'xId': "12345",
            }}

scrapy_request = Request(url=url, method='POST',
                         body=json.dumps(j),
                         )

fetch(scrapy_request)

但是请记住，请求可能会像scrapy那样以其他方式修改你的请求。特别是如果你有自定义的中间件或其他东西。所以请检查你的头是否包含正确的条目，例如。

'Content-Type': 'application/json'

或

'Accept': '*/*',

为了比较您的请求，Scrappy Discord Channel中的某个人建议使用http://httpbin.org/作为工具，该工具具有返回状态200的端点。之后，您可以比较响应正文和标题，以查找敏感差异。

赞(0）回复(0）举报 2022-11-09

我来回答

带有Scrapy请求的Kickstarter GraphQL API

2条答案

相关问题

热门标签

最新问答