我使用了转换为json的api,用pandas规范化,用pyspark转换为dataframe。
但我不能更改列,也不能更改窗体或任何内容,我不能选择它们。
我不知道我哪里出错了!
import requests
import json
import pandas as pd
import pyspark.sql.functions as F
import os
from pyspark.sql.types import DoubleType
from pyspark.sql import types
base_url = "https://api.talkwalker.com/api/v1/search/results"
token = "demo"
search = "cats"
url = base_url + "?access_token=" + token + "&q=" + search + "&pretty=true&hpp=1"
response = requests.get(url)
# print(response.text)
js = response.json()
df1 = pd.json_normalize(js['result_content'],['data'])
pdf = pd.DataFrame(df1)
df = spark.createDataFrame(pdf)
display(df.select('data.url'))
问题在选择中。
1条答案
按热度按时间zed5wv101#
默认情况下,spark将带有点的列名解释为结构元素,因此如果您希望获得带有包含点的名称的列,则需要使用反勾号来 Package 名称。试着去做
df.select('
data.url')
看看这样行不行。