pandas 将 Dataframe 的列拉入单独的 Dataframe ，然后用平均值替换重复项

5fjcxozz 于 2023-02-14 发布在其他

关注(0)|答案(1)|浏览(75)

我是python的新手，所以如果这个问题看起来很初级的话，我先道歉。我正在尝试把一个 Dataframe 的列拉到另一个 Dataframe 中。我想用一个包含平均值的列替换第一个 Dataframe 中的重复列，并放到第二个 Dataframe 中。我希望这是有意义的！
为了提供一些背景知识，我正在跟踪某些时间点的基因表达。我有一个17行x33列的数据框。这个数据框中的每一行对应一个特定的外显子。这个数据框中的每一列对应一个时间点（AGE）。
Dataframe 如下所示：x1c 0d1x
其中一些列包含相同的名称（年龄），我只想计算具有相同名称的列的平均值，这样，例如，我得到一列“12 pcw”，而不是三个单独的列“12 pcw”。之后，我希望将这些值从第一个 Dataframe 拉到第二个 Dataframe 中，以获得平均值。
我希望使用一个for循环来循环遍历每个age（列），以获得所有主题的平均表达式。
我将在下面解释我的过程：

1）从年龄列表中获取UNIQUE字符串名称列表

unique_ages = set(column_names)

2）创建一个空的数据框，给出我希望平均数据适合/放入的内容的轮廓

mean_df = pd.DataFrame(index=exons, columns=unique_ages)

3）现在，我想循环遍历每个年龄段，以获得当前献血者的平均表达，这就是我尝试利用for循环创建一个管道来处理其他 Dataframe ，我将在未来使用这些 Dataframe 。

for age in unique_ages:
    print(age)
    age_df = pd.DataFrame() ##pull columns of df as separate df that have this string 
    if len(age_df.columns) > 1: ##check if df has >1 SAME column, if so, take avg across SAME columns 
        mean = df.mean(axis=1)
        mean_df[age] = mean
    else:
        ## just pull out the values and put them into your temp_df

4）现在，使用新的平均数组（如果不存在多个年龄，则为同一阵列），我想把这个数组放到我的'temp_df'中适当的列下。我知道我应该使用for循环提供的'age'变量来获取我的temp df中的列的适当的locationname。但是我不确定如何做到这一点。这是一个相当陡峭的学习曲线，我觉得这是一个简单的解决方案，但我似乎不能包裹我的头周围。任何帮助将不胜感激。

pandas

来源：https://stackoverflow.com/questions/75415128/pulling-columns-of-dataframe-into-separate-dataframe-then-replacing-duplicates

1条答案

按热度按时间

fnvucqvd1#

不需要for loop（Pandas：）），你可以直接使用df.groupby(lambda x:x, axis=1).mean()，例如：

data = [[1,2,3],[4,5,6]]
cols = ['col1', 'col2', 'col2']
df = pd.DataFrame(data=data, columns=cols)

#    col1  col2  col2
# 0     1     2     3
# 1     4     5     6

df = df.groupby(lambda x:x, axis=1).mean()

#    col1  col2
# 0   1.0   2.5
# 1   4.0   5.5

groupby函数采用另一个函数（lambda），这基本上意味着它将插入每个列名，并返回该列所属的组。在我们的示例中，我们只希望列名本身就是组。因此，在名为col2的第三列上，它会说'this column belong to group named col2 '，而这个组已经存在（因为第二列已经在前面传递过了），然后提供所需的聚合，在本例中是mean()。

赞(0）回复(0）举报 2023-02-14

我来回答

pandas 将 Dataframe 的列拉入单独的 Dataframe ，然后用平均值替换重复项

1）从年龄列表中获取UNIQUE字符串名称列表

2）创建一个空的数据框，给出我希望平均数据适合/放入的内容的轮廓

3）现在，我想循环遍历每个年龄段，以获得当前献血者的平均表达，这就是我尝试利用for循环创建一个管道来处理其他 Dataframe ，我将在未来使用这些 Dataframe 。

1条答案

相关问题

热门标签

最新问答

pandas 将 Dataframe 的列拉入单独的 Dataframe ，然后用平均值替换重复项

1）从年龄列表中获取UNIQUE字符串名称列表

2）创建一个空的数据框，给出我希望平均数据适合/放入的内容的轮廓

3）现在，我想循环遍历每个年龄段，以获得当前献血者的平均表达，这就是我尝试利用***for循环***创建一个管道来处理其他 Dataframe ，我将在未来使用这些 Dataframe 。

1条答案

相关问题

热门标签

最新问答

3）现在，我想循环遍历每个年龄段，以获得当前献血者的平均表达，这就是我尝试利用for循环创建一个管道来处理其他 Dataframe ，我将在未来使用这些 Dataframe 。