我必须更新下面输入文件的第一个字段(不包括作为标题的前两行。BGL,GLC和LIN之前第一列中的数字是一个计数器,必须以这样的方式进行更新:对于具有相同分子BCL,GLC和LIN的每个系列的记录,计数器增加一个。
在我的输入文件的一个小片段下面(我有100个这样的文件):
900 mgdg molecules in water t= 600000.00000 step= 400000000
177255
1BGL C5 1 2.709 14.491 1.493
1BGL H5 2 2.664 14.412 1.433
1BGL O5 3 2.717 14.464 1.627
1BGL C1 4 2.599 14.430 1.687
1BGL H1 5 2.546 14.350 1.634
2GLC O1 23 2.609 14.403 1.823
2GLC C1 24 2.675 14.276 1.837
2GLC H11 25 2.607 14.204 1.790
3LIN C3 44 3.033 14.281 2.268
3LIN H31 45 3.136 14.298 2.235
4LIN C3 87 3.108 13.927 2.066
4LIN H31 88 3.077 13.879 2.159
1BGL C5 1 2.709 14.491 1.493
1BGL H5 2 2.664 14.412 1.433
1BGL O5 3 2.717 14.464 1.627
1BGL C1 4 2.599 14.430 1.687
1BGL H1 5 2.546 14.350 1.634
2GLC O1 23 2.609 14.403 1.823
2GLC C1 24 2.675 14.276 1.837
2GLC H11 25 2.607 14.204 1.790
3LIN C3 44 3.033 14.281 2.268
3LIN H31 45 3.136 14.298 2.235
4LIN C3 87 3.108 13.927 2.066
4LIN H31 88 3.077 13.879 2.159
etc
1BGL C5 1 2.709 14.491 1.493
1BGL H5 2 2.664 14.412 1.433
1BGL O5 3 2.717 14.464 1.627
1BGL C1 4 2.599 14.430 1.687
1BGL H1 5 2.546 14.350 1.634
2GLC O1 23 2.609 14.403 1.823
2GLC C1 24 2.675 14.276 1.837
2GLC H11 25 2.607 14.204 1.790
3LIN C3 44 3.033 14.281 2.268
3LIN H31 45 3.136 14.298 2.235
4LIN C3 87 3.108 13.927 2.066
4LIN H31 88 3.077 13.879 2.159
etc
20389SOL OW77253 0.644 14.144 5.376
20389SOL HW177254 0.712 14.203 5.344
20389SOL HW277255 0.577 14.201 5.413
6.36535 23.37625 12.09434
我想作为输出:
900 mgdg molecules in water t= 600000.00000 step= 400000000
177255
1BGL C5 1 2.709 14.491 1.493
1BGL H5 2 2.664 14.412 1.433
1BGL O5 3 2.717 14.464 1.627
1BGL C1 4 2.599 14.430 1.687
1BGL H1 5 2.546 14.350 1.634
1GLC O1 23 2.609 14.403 1.823
1GLC C1 24 2.675 14.276 1.837
1GLC H11 25 2.607 14.204 1.790
1LIN C3 44 3.033 14.281 2.268
1LIN H31 45 3.136 14.298 2.235
1LIN C3 87 3.108 13.927 2.066
1LIN H31 88 3.077 13.879 2.159
2BGL C5 1 2.709 14.491 1.493
2BGL H5 2 2.664 14.412 1.433
2BGL O5 3 2.717 14.464 1.627
2BGL C1 4 2.599 14.430 1.687
2BGL H1 5 2.546 14.350 1.634
2GLC O1 23 2.609 14.403 1.823
2GLC C1 24 2.675 14.276 1.837
2GLC H11 25 2.607 14.204 1.790
2LIN C3 44 3.033 14.281 2.268
2LIN H31 45 3.136 14.298 2.235
2LIN C3 87 3.108 13.927 2.066
2LIN H31 88 3.077 13.879 2.159
etc
900BGL C5 1 2.709 14.491 1.493
900BGL H5 2 2.664 14.412 1.433
900BGL O5 3 2.717 14.464 1.627
900BGL C1 4 2.599 14.430 1.687
900BGL H1 5 2.546 14.350 1.634
900GLC O1 23 2.609 14.403 1.823
900GLC C1 24 2.675 14.276 1.837
900GLC H11 25 2.607 14.204 1.790
900LIN C3 44 3.033 14.281 2.268
900LIN H31 45 3.136 14.298 2.235
900LIN C3 87 3.108 13.927 2.066
900LIN H31 88 3.077 13.879 2.159
etc
20389SOL OW77253 0.644 14.144 5.376
20389SOL HW177254 0.712 14.203 5.344
20389SOL HW277255 0.577 14.201 5.413
6.36535 23.37625 12.09434
我主要使用这样的脚本,但是这种情况更加复杂,该脚本无用。我知道我应该尽量使用计数器,但是如果我使用不同的名称(我的意思是BGL,GLC,LIN)并且也很难使用它(FNR%22 == 0),那么该如何打印它,因为我当时有5个BGL 3 GLC然后4 LIN。
#!/bin/bash
awk '
FNR==1{
++count
value=count"BGL" (or whatever)
}
{
$1=value
}
1
FNR%22==0{
++count
value=count"BGL"
}
' after_SOL.gro | tee after_SOL2.gro
我还将在许多文件上执行此操作,因此我会在for循环中pyt我的脚本:
#!/bin/bash
for num in {1..100};
do
(awk script here) eq4_$num.gro | tee eq5_$num.gro
done
此脚本应重新编号分子。
#!/usr/bin/gawk -f
BEGIN{ mol=""; prev=""; }
{
gsub(/[0-9]/,"",$1);
mol=$1;
if (mol==prev){
nr=m[mol];
}
else {
nr=++m[mol]
};
prev=mol;
print nr$0
}
[每个分子('BGL','GLC',LIN')序列号保存在数组m[]
中。并随着分子的变化而增加。
我希望这是计划要做的事情?
我相信此脚本可以完全满足您的要求,并保留输入的表格格式:
#!/bin/bash
awk '
NR <= 2 {print} /* skip two lines of headers */
NR > 2 {
sub(/[0-9]*/, "", $1);
if ($1 != prev) {count[$1]++}
prev = $1
printf ("%8s %6s %4s %7s %7s %7s\n", count[$1]$1, $2, $3, $4, $5, $6)
} ' data.txt