我需要列出大量文件(40,000个文件)的列表,如下所示:
ERR001268_1_100.fastq ERR001268_2_156.fastq ERR001753_2_78.fastq
ERR001268_1_101.fastq ERR001268_2_157.fastq ERR001753_2_79.fastq
ERR001268_1_102.fastq ERR001268_2_158.fastq ERR001753_2_7.fastq
ERR001268_1_103.fastq ERR001268_2_159.fastq ERR001753_2_80.fastq
我的命令是:ls ERR*_1_*.fastq |sed 's/\.fastq//g'|sort -n > masterlist
但是错误是:bash: /bin/ls: Argument list too long
但是我可以解决这个问题吗?还有其他通过perl / python创建列表的方法吗?
thx
您应该可以将ls ERR*_1_*.fastq
替换为find . -name "ERR*_1_*.fastq"
。这样,您可以避免将通配符扩展为庞大的参数列表。
(find
输出将包含前导“ ./”,例如./ERR001268_1_100.fastq
。如果这是不可取的,您可以稍后在该命令中使用另一个sed
命令将其删除管道。)
如果文件已经存在于目录中,则python的“ glob”模块的限制可能比bash的命令行更高。
从命令行:
python -c "import glob; print glob.glob('ERR_*_1_*.fastq')"
要在python中完成整个操作,您可以尝试如下操作:
import glob
files = glob.glob("ERR_*_1_*.fastq")
trimmedfiles = [x.replace(".fastq","") for x in files]
trimmedfiles.sort()
for f in trimmedfiles:
print f
此解决方案将按字母顺序而不是数字方式对文件进行排序。为此,您可能需要向sort()方法添加一些key = lambda魔术:
trimmedfiles.sort(key=lambda f: int(f.split("_")[2]))
查找可能会帮助您-而不是ls使用find . -name 'yourpatternhere' -print0 | xargs -0 youractionhere
您可以使用find
。
示例:
find /Users/kunlun/Downloads/fu_neg/ -name "*.png" >
/Users/kunlun/Downloads/fu_neg.txt