我已经使用Core Python API为我的ETL项目编写了一个文件到文件验证。它具有重复检查,计数检查,文件大小检查,逐行比较以及将冲突记录到另一个输出文件中的方法。我正在使用“集合”库对象:计数器和双端队列,而不是方法中的普通列表。运行正常。但是对于大小在4000万以上的文件,则需要6到7分钟才能运行整个验证。当我调试了方法和主要操作的性能后,发现在将文件内容转换为双端队列的行下面需要3到4分钟。
with open(sys.argv[1]) as source,open(sys.argv[2]) as target:
src = deque(source.read().splitlines())
tgt = deque(target.read().splitlines())
所以在这里我需要做一些调整。我想在以下几点上寻求帮助
希望在这里伸出援手
我已经使用Core Python API为我的ETL项目编写了一个文件到文件验证。它具有用于重复检查,计数检查,文件大小检查,逐行比较以及记录...
您可以跳过read()