从文件中提取包含大量字符串之一的行

问题描述投票：0回答：2

假设我有10,000,000行的文件DATA。我有另一个文件IDS，包含100,000个字符串。我想从DATA中提取包含IDS中一个字符串的所有行。另一个条件是文件之间存在1：1的关系，因此每个ID都有一行DATA，每个DATA都有一个ID。

使用标准linux命令行实用程序执行此操作的最有效，最简单的方法是什么？

我的想法到目前为止：

构建一个巨大的正则表达式并使用grep（容易，可能会超出grep中的某些限制）
逐行浏览IDS并分别为每个字符串grep DATA，合并结果。（容易，可能非常低效）
在python中构建IDS的hashmap，循环遍历DATA，提取ID并检查哈希映射（有点难）

linux command-line

2个回答

3
投票

grep -F -f IDS DATA

不要错过-F：它可以防止将IDS解释为正则表达式，并且可以实现更高效的Aho-Korasick算法。

2
投票

如果IDS包含您需要在DATA中找到的确切字符串，每行一个字符串，请尝试使用

grep --file=IDS DATA > results

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.