使用Python优化大文本数据集中的用户名删除[已关闭]

我正在开发一个项目，需要删除包含 510,718 个帖子的数据集中的用户名。该数据集包括 19,346 个唯一用户名。我的目标是用占位符替换帖子中所有出现的用户名（例如“USERNAME”）。我在Python中尝试了四种不同的方法来实现这一点，但这些方法的效率并不令人满意。以下是我尝试过的简要概述：

我正在寻找有关使用 Python 删除大型数据集中的用户名的更有效和更准确方法的建议。

具体：

任何见解或建议将不胜感激。谢谢！

0
投票

我认为你需要拆分问题，首先尝试看看是否可以通过预处理用户名来赢得一些时间，并尝试使用最优化的方式来解决你的问题:

预处理用户名：将用户名的大小写标准化为小写（或大写，但始终相同）。此步骤通过确保您只需处理每个用户名的单一大小写变化来降低复杂性。

矢量化替换功能n：利用矢量化操作来替换用户名。 Pandas 的 apply

 方法由于其本质上类似于循环的行为，在大型数据集上可能效率低下。相反，可能需要更直接的字符串操作技术，可能使用

numpy

 来实现更高效的计算。

0
投票

我发现的最快的解决方案是迭代循环中的用户名（小写和大写版本），并将其替换为“USERNAME”占位符，而不使用正则表达式。如果有人有更好的解决方案，请lmk。

0
投票

一种可能更快的方法是对列运行哈希算法。您希望以有条不紊的方法对该列进行匿名化，同时防止去匿名化。这听起来正是哈希算法的构建目的。

这是一个

问题描述投票：0回答：3

3个回答

最新问题

使用Python优化大文本数据集中的用户名删除[已关闭]

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3