列出目录中具有模式的分组文件

Question

想象一下我有以下文件/模式：

log_A_20000101.log
...
log_A_20200412.log
...
log_B_20000101.log
...
log_B_20200412.log
...
log_C_20000101.log
...
log_C_20200412.log
...
log_D_20000101.log
...
log_D_20200412.log

我要计算一组文件中有多少文件：

log_A _ *。log 1234
log_B _ *。log 3245
log_C _ *。log 2343
log_D _ *。log 6435

问题是我不知道我有多少个模式，因为文件太多，所以我不知道是否有A，B，C，D。如何找到所有模式（并计数）？

Answer 1

您可以：

ls -1 | sed -En 's/(.*)_[0-9]+.log/\1_*.log/p' | uniq -c

将输出传送到sed，以用星号替换数字并计数唯一的条目

Answer 2

一种方法，使用GNU datamash进行计数：

find . -name "log_*.log" -print | datamash -s -t_ -g1,2 count 3 | sed 's/_\([^_]*\)$/_*.log \1/'

或使用awk：

find . -name "log_*.log" -print | \
 awk -F_ '{ counts[$1"_"$2]++ }
          END { for (pat in counts) printf "%s_*.log %d\n", pat, counts[pat] }'

Answer 3

仅使用grep。我正在使用“此处文档”，但是您可以通过管道输入。请注意，在下面的示例中，我们仅匹配A。

grep -Pch '(?<=log_)A(?=_[0-9]{8}\.log)' <<-EOF
log_A_20000101.log
log_A_20200412.log
log_B_20000101.log
log_B_20200412.log
log_C_20000101.log
log_C_20200412.log
log_D_20000101.log
log_D_20200412.log
EOF

一些解释：

(?<=log_) ............. positive look-behind (just validate)
(?=_[0-9]{8}\.log) .... positive look-ahead

列出目录中具有模式的分组文件

问题描述投票：-1回答：3

3个回答

最新问题

列出目录中具有模式的分组文件

问题描述 投票：-1回答：3

3个回答

最新问题

问题描述投票：-1回答：3