如何使用 Pandas 读取 CSV 并且仅将其读入 1 列而不使用 Sep 或分隔符

Question

我有一个由许多电子邮件密码组合组成的txt文件，问题是它的开头中间或结尾处充满了符号。这些都可以使用正则表达式替换，但我的问题是读取 txt 文件并将所有数据保留在 1 列中。不能使用分隔符或分隔符，因为每行包含许多不同的符号。即使默认的“，”也是不可行的，因为行以“，”开头，所以它不会保留任何数据。

我已经有一个脚本，它只能找到电子邮件并使用 pandas 和正则表达式消除噪音，但最初的读取是我的问题。我听说过在 c 引擎上使用 python 引擎，但这样做会导致某些列显示 NaN 并将电子邮件传递组合的其余部分分别放在第 2 列中。

with open(self.breach_file, 'r', encoding='utf-8') as breach_file:
            found_reader = pd.read_csv(breach_file, names=['Email'], dtype={'Email':str}, quoting=csv.QUOTE_NONE, engine='c')
            found_reader = pd.DataFrame(found_reader)
            found_reader['Email'] = found_reader['Email'].replace(symbol_dictionary_colon, ':', regex=True).replace(symbol_dictionary_no_space, '', regex=True)
            found_reader = found_reader.str.replace('?', '', regex=True).str.strip()
            loaded_list = found_reader.str.replace(symbol_dictionary_first_char, '', regex=True)
        breach_file.close()

我只想在 1 列中读取数据，无论该行以什么符号开头。有什么帮助吗？

附注我尝试过使用 2 列，然后如果第 1 列是

NaN

，则创建一个连接了第 1 列和第 2 列的新列，但这并没有提供可行的解决方案。

Answer 1

那么您的文件只包含一列信息，还是还有其他信息（仅密码）？你的文件有多大？

如果不大，你可以这样做：

with open(self.breach_file, 'r', encoding='utf-8') as breach_file:
    passwords= breach_file.readlines()

pd.DataFrame({'passwords': passwords})

如果它更大，您可以逐行读取并将每一行一次添加到数据帧中（但这可能会很慢）。您还可以尝试使用 read_fwf 函数，该函数需要固定宽度的文件，因此不会查找字段分隔符。显然它不要求文件包含相同长度的行。它看起来像：

pd.read_fwf('fake_fixed.txt', widths= [100])

您只需确保使用的宽度至少与最长密码一样大。

另一种可能性是使用

pd.read_csv('fake_fixed.txt', sep='\n')

因此，您确保行不会被分割（假设您的行被换行符分隔。这样您甚至可以使用自定义转换器来解析电子邮件地址（如果您确实只需要一列的信息），这可能会节省一些空间。

Answer 2

答案：

found_reader = pd.read_csv(breach_file, names=['Email'], dtype={'Email':str}, delimiter='\n', quoting=csv.QUOTE_NONE, engine='c')

分隔符或 Sep 都可以。

信用：https://stackoverflow.com/users/6925185/jotbe

如何使用 Pandas 读取 CSV 并且仅将其读入 1 列而不使用 Sep 或分隔符

问题描述投票：0回答：2

2个回答

最新问题

如何使用 Pandas 读取 CSV 并且仅将其读入 1 列而不使用 Sep 或分隔符

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2