我曾与FILE1.TXT 100个条目。需要搜索FILE1.TXT的内容file2.bz2文件,这是一个大的bZIP文件。 bzgrep -f FILE1.TXT file2.bz2需要很长时间。
你可以什么也不做。文件压缩和搜索的唯一方法是将其解压。 一个可能的解决方法是保持文件的未压缩版本。
你可以做很多事情,但它是工作的一个真正的过量。
bzip2的文件由块。您可以通过块,全文索引每一个剪切文件起来,并保存索引。如果您有您可以筛选索引关键字的一些想法,否则你得到的所有文字完整索引混乱。这往往是像原始未压缩文件的大小10-100倍。
如果只有某些地方要建立索引的话会发生,或者你可以限制被索引词的数量和搜索比文件可以使这项工作更加频繁。
理念公然从这里被盗:https://www.thanassis.space/buildWikipediaOffline.html