保存在Python中的for循环中创建的每个新数据帧

问题描述 投票:-2回答:1

我编写了一个函数,它迭代文件夹中的文件并选择某些数据。 .csv文件如下所示:

Timestamp  Value         Result    
00-00-10   34567          1.0  
00-00-20   45425     
00-00-30   46773          0.0  
00-00-40   64567   
00-00-50   25665          1.0  
00-01-00   25678  
00-01-10   84358 
00-01-20   76869          0.0
00-01-30   95830          
00-01-40   87890        
00-01-50   99537            
00-02-00   85957          1.0
00-02-10   58840    

它们保存在路径C:/Users/me/Desktop/myfolder/data中,我在C:/Users/me/Desktop/myfolder中编写了代码。功能(在@Daniel R的建议之后):

PATH = os.getcwd()+'\DATA\\'
def my_function(SourceFolder):
for i, file_path in enumerate(os.listdir(PATH)):
    df = pd.read_csv(PATH+file_path)
    mask = (
    (df.Result == 1) 
    | (df.Result.ffill() == 1)
    | ((df.Result.ffill() == 0) 
       & (df.groupby((df.Result.ffill() != df.Result.ffill().shift()).cumsum()).Result.transform('size') <= 100))
   )
    df = mask[df]  
    df = df.to_csv(PATH+'df_{}.csv'.format(i))

我最初的问题是:如何在不覆盖数据的情况下将每个df[mask]保存到NewFolder?上面的代码抛出AttributeError: 'str' object has no attribute 'Result'.

AttributeError                            Traceback (most recent call last)
<ipython-input-3-14c0dbaf5ace> in <module>()
----> 1 retrieve_data('C:/Users/me/Desktop/myfolder/DATA/*.csv')

<ipython-input-2-ba68702431ca> in my_function(SourceFolder)
      6         (df.Result == 1)
      7         | (df.Result.ffill() == 1)
----> 8         | ((df.Result.ffill() == 0) 
      9            & (df.groupby((df.Result.ffill() != df.Result.ffill().shift()).cumsum()).Result.transform('size') <= 100)))
     10         df = df[mask]

C:\ProgramData\Anaconda3\lib\site-packages\pandas\core\generic.py in __getattr__(self, name)
   4370             if self._info_axis._can_hold_identifiers_and_holds_name(name):
   4371                 return self[name]
-> 4372             return object.__getattribute__(self, name)
   4373 
   4374     def __setattr__(self, name, value):

AttributeError: 'DataFrame' object has no attribute 'Result'
python for-loop dataframe override mask
1个回答
0
投票

如果您的数据框架具有满足pandas DataFrame要求的结构:

import pandas as pd
import os

# Let '\DATA\\' be the directory where you keep your csv files, as a subdirectory of .getcwd()
PATH = os.getcwd()+'\DATA\\'
def my_function(source_folder):
    for i, file_path in enumerate(os.listdir(PATH)):
        df = pd.read_csv(PATH+file_path)   # Use read_csv here, not DataFrame.
                              # You are still working with a filepath, not a dictionary.
        mask = ( (df.Result == 1) | (df.Result.ffill() == 1) |
                 ((df.Result.ffill() == 0) &
                 (df.groupby((df.Result.ffill() !=
                  df.Result.ffill().shift()).cumsum()).Result.transform('size') <= 100))
                 )
        df = df[mask]
        df = df.to_csv(PATH+'df_{}.csv'.format(i))

作为一般规则,您应该在提出类似于此问题的问题时提供您正在处理的数据样本。收到的答案可能对您不起作用。请使用dataframe / csv文件的示例和目录的模拟内容更新问题,以便我可以更新此答案。

如果srcPath与os.getcwd()不同,则在迭代文件之前,您可能必须计算完整路径或相对于.getcwd()的路径。

此外,可能没有必要调用上面的list(),无论是否使用它来测试代码。

最后,为什么需要两个变量作为my_function()的输入?据我所知,只需要一个变量,即.glob()中调用的srcPath,这不是传递给函数的变量,因此它必须是全局变量。

编辑:我已经根据对原始问题的修改以及对此帖子的评论更新了上面的代码。

编辑2:原来你对glob.glob()的调用没有产生你想要的东西。请参阅更新的代码。

© www.soinside.com 2019 - 2024. All rights reserved.