将列表导出为pandas数据帧中的新列，作为嵌套for循环的一部分

Question

我正在输入包含多列数据的多个电子表格。对于每个电子表格，都会找到每列的最大值。然后，对于列中的每个元素，元素除以该列的最大值。对于列中的每个元素，输出应该是一个值（在0和1之间），按升序排列。这将附加到列表中，该列表应作为列添加到源电子表格中。

目前，据我所知，嵌套循环在最后一步之外正确执行。每个列都会添加到电子表格中，但不包括源电子表格最后一列的值，而不是与每个列相关的值。

我已经尝试更改缩进以将代码级别与不同部分相关联（因为我认为这是问题）并尝试在数据框中移动附加列，但无济于事。

for i in distlist: #listname = i[4:] + '_norm' df2 = pd.read_excel(i,header=0,index_col=None, skip_blank_lines=True) df3 = df2.dropna(axis=0, how='any')

cols = []
for column in df3:
    cols.append(column)

    for x in cols:
        listname = x + ' norm'
        maxval = df3[x].max()
        print(maxval)
        mylist = []

        for j in df3[x]:
            findNL = (j/maxval)
            mylist.append(findNL)
        df3[listname] = mylist


        saveloc = 'E:/test/'  
        filename = i[:-18] + '_Normalised.xlsx'
        df3.to_excel(saveloc+filename, index=False)

新的列将添加到输出数据框中，其中包含与源电子表格中的字段标题相关的定制标题，并根据（listname）重命名。这些新列中的每一列中的数据都是相同的，并且与电子表格中的最后一列相关。对我来说，似乎每次都要覆盖这些值（好像在整个电子表格中循环，而不是为每列输出），并将其添加到电子表格中。

任何帮助将非常感激。我认为这很简单，但我还没有设法弄清楚...

Answer 1

如果我理解正确，你就会过于复杂。你不需要for循环。您可以简化代码：

# Make example dataframe, this is not provided
df = pd.DataFrame({'col1':[1, 2, 3, 4],
                  'col2':[5, 6, 7, 8]})

print(df)
   col1  col2
0     1     5
1     2     6
2     3     7
3     4     8

现在我们可以使用DataFrame.apply并使用add_suffix给新列_norm后缀，然后将列连接到一个最终的数据帧

df_conc = pd.concat([df, df.apply(lambda x: x/x.max()).add_suffix('_norm')],axis=1)

print(df_conc)
   col1  col2  col1_norm  col2_norm
0     1     5       0.25      0.625
1     2     6       0.50      0.750
2     3     7       0.75      0.875
3     4     8       1.00      1.000

Answer 2

非常感谢。我想我只是过于复杂了。顺便说一句，我认为我的代码可能会做同样的工作，但因为值的差异很小，所以并不值得注意。

谢谢你的帮助@Erfan

将列表导出为pandas数据帧中的新列，作为嵌套for循环的一部分

问题描述投票：0回答：2

2个回答

最新问题

将列表导出为pandas数据帧中的新列，作为嵌套for循环的一部分

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2