我有以下两个命令。
# 6 million lines
"zgrep -oF -f /projects/lab.mis/index/temp_hg19.inx /projects/incoming/M1_R2.fastq.gz"
# 6 thousand lines
"zgrep -oF -f /projects/lab.mis/index/optimize_hg19.inx /projects/incoming/M1_R2.fastq.gz"
第一个搜索包含超过 600 万个模式的文件,而第二个搜索只有 6K。
两个文件都应包含模式:“GATTCCAGATGGAGGT”
但是,只有第二个命令(具有 6K 搜索词的命令)返回匹配项。是否有一个原因?我本身没有看到任何错误消息,所以非常困惑。
您期望找到的字符串可能是较大文件中其他 2 个匹配字符串的一部分。
例如:
$ cat file
foobar
用一个小字符串文件来匹配:
$ cat strings1
ob
$ grep -Fof strings1 file
ob
并且使用包含较小字符串和其他字符串的较大文件:
$ cat strings2
ob
foo
bar
$ grep -Fof strings2 file
foo
bar