AWK文件转换

Question

我有一个以下格式的文件：

Total:89.3    
User: user1
    Count:3
    Sum:80
      departmentId: dept1
      Amount by departmentId: 20
      departmentId: dept1
      Amount by departmentId: 35
      departmentId: dept2
      Amount by departmentId: 25
    User: user2
    Count:3
    Sum:7.199999999999999
      departmentId: dept1
      Amount by departmentId: 2.4
      departmentId: dept2
      Amount by departmentId: 2.4
      departmentId: dept3
      Amount by departmentId: 2.4
    User: user3
    Count:1
    Sum:0.2
      departmentId: dept2
      Amount by departmentId: 0.2
    User: user4
    Count:2
    Sum:2
      departmentId: dept3
      Amount by departmentId: 1
      departmentId: dept3
      Amount by departmentId: 1

文件列表基本上是部门的用户费用。如果同一用户多次到达某个部门，则需要将其合并为一行。输出文件需要采用以下格式。对于user1，他有dept1的2个会费和dept2的1个会费。因此在输出文件中，dept1的2个需要合并为1个计数需要为no。每个部门的唯一用户。

Format:
count_of_uique_user_dept_rows total_sum   -- note** header row-->total sum and total no. of unique user dues
userId+deptId sum for that dept

Example:

7 89.3
user1dept1 55
user1dept2 25
user2dept1 2.4
user2dept2 2.4
user2dept3 2.4
user3dept2 0.2
user4dept3 2

我到目前为止，

# This awk script is used to convert the input of library credit/debit's to the required Student Accounts Load format
BEGIN { FS=": *" }
{
    gsub(/^ +| +$/,"")
    f[$1] = $2

}
/Amount/ {
    dept = f["departmentId"]
    total = f["Total"]
    sum[dept] += $2
    amount += $2

}
$1 == "User" {
    if (NR>1) {
        format()
    }
    user = $2
}
END { format() }

function format() {
if ( length(sum) > 0 ) {
    for (dept in sum) {
        printf "%-9s%-12s%10.2f\n", substr(user,1,9), substr(dept,1,12), sum[dept]
    }
    delete sum
    amount = 0
 }
}

上面的脚本为我们提供了数据行。我无法弄清楚如何获得7 89.3的标题行请帮忙。

Answer 1

我决定不再读取文件两次，只是在打印前将输出保存在数组中。以下是如何做到这一点：

第1步：修复当你假设sum是标量时你会从某些awk中获得的语法错误，因为你在通过在BEGIN部分添加length(sum)数组操作将它用作数组之前调用delete sum（你可以删除它测试长度（总和），因为它没有对你的代码做任何有用的事情，但我想解释这个问题以及如何解决它一般）。

BEGIN { FS=": *"; delete sum }

第2步：更改format()函数以加载稍后要输出的值数组，而不是立即输出这些值：

function format() {
if ( length(sum) > 0 ) {
    for (dept in sum) {
        vals[++numVals] = sprintf("%-9s%-12s%10.2f", substr(user,1,9), substr(dept,1,12), sum[dept])
    }
    delete sum
    amount = 0
 }

}

第3步：在END部分添加一个循环来实际执行打印：

END {
    format()
    for (valNr=1; valNr<=numVals; valNr++) {
        print vals[valNr]
    }
}

此时，您获得的输出将与现有脚本完全相同，但它使我们能够添加您需要的新功能：

第4步：将每个用户+ dept组合保存为数组usrdpt[]的索引：

/Amount/ {
    dept = f["departmentId"]
    total = f["Total"]
    sum[dept] += $2
    usrdpt[user,dept]
    amount += $2
}

步骤5：在打印先前的值之前，在END部分中打印新usrdpt[]数组的唯一索引的数量：

END {
    format()
    print length(usrdpt)
    for (valNr=1; valNr<=numVals; valNr++) {
        print vals[valNr]
    }
}

结果是：

$ cat tst.awk
BEGIN { FS=": *"; delete sum }
{
    gsub(/^ +| +$/,"")
    f[$1] = $2
}
/Amount/ {
    dept = f["departmentId"]
    total = f["Total"]
    sum[dept] += $2
    usrdpt[user,dept]
    amount += $2
}
$1 == "User" {
    if (NR>1) {
        format()
    }
    user = $2
}
END {
    format()
    print length(usrdpt)
    for (valNr=1; valNr<=numVals; valNr++) {
        print vals[valNr]
    }
}

function format() {
if ( length(sum) > 0 ) {
    for (dept in sum) {
        vals[++numVals] = sprintf("%-9s%-12s%10.2f", substr(user,1,9), substr(dept,1,12), sum[dept])
    }
    delete sum
    amount = 0
 }
}

.

$ awk -f tst.awk file
7
user1    dept1            55.00
user1    dept2            25.00
user2    dept1             2.40
user2    dept2             2.40
user2    dept3             2.40
user3    dept2             0.20
user4    dept3             2.00

我假设您可以弄清楚如何保存并稍后打印Total值。

Answer 2

使用GNU awk和2d数组：

$ awk '
$1=="User:" {                                 # store user
    u=$NF 
}
$1=="departmentId:" {                         # store dept
    d=$NF
}
$1=="Amount" {
    if(a[u][d]=="")                           # count uniq user/depts
        c++
    s+=$NF                                    # total sum
    a[u][d]+=$NF                              # user/dept sum
}
END {
    printf "%s, %.2f\n",c,s                   # output count and total
    for(u in a)
        for(d in a[u]) 
            printf "%s %s %.2f\n",u,d,a[u][d] # output user/dept sums
}' file

输出：

7 89.40
user1 dept1 55.00
user1 dept2 25.00
user2 dept1 2.40
user2 dept2 2.40
user2 dept3 2.40
user3 dept2 0.20
user4 dept3 2.00

AWK文件转换

问题描述投票：1回答：2

2个回答

最新问题

AWK文件转换

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2