从tar.gz文件中读取文件夹的名称，并创建包含名称的列

Question

我想从tar.gz文件中读取文件夹的名称，并创建包含名称的列。

我正在使用此代码：

file_path = r"C:\Users\filename.tar.gz"
start_with = './mainfolder/'

import tarfile
import re
with tarfile.open(file_path, "r:*") as tar:
    csv_path = tar.getnames()
    csv_path = list(n for n in tar.getnames() if (n.endswith('.csv')) & (n.startswith(start_with)))
    df = pd.DataFrame()

    csv_list = []

    for file in csv_path:
        df_temp = pd.read_csv(tar.extractfile(file))
        csv_list.append(df_temp)

    df = pd.concat(csv_list)

在主文件夹中，只有几个具有名称的文件夹。从文件夹“ X”中读取一个csv文件（例如）后，应在此csv文件中创建“ FolderName”列，并且该列必须包含所有行的文件夹名称（“ X”）。因此，对于每个csv文件。

Answer 1

在以下行之后：

df_temp = pd.read_csv(tar.extractfile(file))

您可以使用file方法从os.path.dirname()路径字符串中获取文件夹名称。更多信息here。

您需要import os模块。

示例：

#returns ./mainfolder/1001_name
full_folder_path = os.path.dirname(file)

#returns 1001_name
folder = os.path.basename(full_folder_path)

#returns name bit
result = folder[folder.index('_')+1:]

df_temp['FolderName'] = result

这将创建一个名为FolderName的新列，并为所有行设置值。更多信息here。

从tar.gz文件中读取文件夹的名称，并创建包含名称的列

问题描述投票：1回答：1

1个回答

最新问题

从tar.gz文件中读取文件夹的名称，并创建包含名称的列

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1