因此,我有一个CSV文件,其中有一个[]地区打印为列,其中包含包含数字数据行;我想为迭代的每列导出一个均值。
import pandas as pd
data = pd.read_csv('ny_data.csv')
df = pd.DataFrame(data, columns=["Upper Manhattan", "Inwood", "Harlem"])
df.groupby(["Upper Manhattan", "Inwood", "Harlem"])
resultdata = df.groupby([0])
resultdata =\
({df.groupby["Upper Manhattan"].mean(),
df.groupby["Inwood"].mean(),
df.groupby["Harlem"].mean(),
})
print(resultdata)
字符串
csv文件是由以下各项生成的随机数据:
nydata = pd.DataFrame({"Upper Manhattan" : np.random.randint(low=2000000, high=6000000, size=SIZE), "Inwood" : np.random.randint(low=3000000, high=3800000, size=SIZE), "Harlem" : np.random.randint(low=2300000, high=5000000, size=SIZE)}
型
我希望每个迭代列的返回输出提供每列的单个平均值。在获得此输出后,另一个我不确定的地方是,使用相同的python文件创建一个新的csv文件,其中仅包含每个迭代列的平均输出。
输出结果如下:
Upper Manhattan 3.992766e+06
Inwood 3.397648e+06
Harlem 3.646264e+06
Leonx Hill 1.112454e+07
Astor Row 5.005024e+06
Upper East Side 2.357776e+07
dtype: float64
型
提前感谢,非常抱歉,如果这是所有基本的东西-我是非常新的编程,但 * 一些 * 进展哈哈。我也不知道什么是6 e +07等的意思?
1条答案
按热度按时间cedebl8k1#
我不知道你为什么要在这里使用groupby。你可能只是想这样:
df.mean().to_csv("mean_values.csv", header=False)
关于你的另一个问题,
e+07
意味着multiply the value by 10 to the power of 7
,例如3.992766e+06
=3992766
。