如何在 Unix 中使用带有多个字符分隔符的 cut？

Question

我的文件看起来像这样

abc ||| xyz ||| foo bar
hello world ||| spam ham jam ||| blah blah

我想提取特定的列，例如我本可以这样做：

sed 's/\s|||\s/\\t/g' file | cut -f1

但是还有其他方法吗？

Answer 1

由于

是有效的正则表达式，因此需要使用

\\|

进行转义或放入方括号中：

[|]

。

你可以这样做：

awk -F' \\|\\|\\| ' '{print $1}' file

其他一些也有效的变体：

awk -F' [|][|][|] ' '{print "$1"}' file
awk -F' [|]{3} ' '{print "$1"}' file
awk -F' \\|{3} ' '{print "$1"}' file
awk -F' \\|+ ' '{print "$1"}' file
awk -F' [|]+ ' '{print "$1"}' file

\
作为分隔符在方括号中效果不佳，只能转义，并且有很多转义字符:)

cat file
abc \\\ xyz \\\ foo bar

示例：表达式中的每个

对应 4 个

，因此总共 12 个

。

awk -F' \\\\\\\\\\\\ ' '{print $2}' file
xyz

或

awk -F' \\\\{3} ' '{print $2}' file
xyz

或者这个，但也没简单多少

awk -F' [\\\\]{3} ' '{print $2}' file
xyz

awk -F' [\\\\][\\\\][\\\\] ' '{print $2}' file
xyz

Answer 2

我创建了一个补丁，将新的

-m

命令行选项添加到

cut

，它在字段模式下工作，并将多个连续分隔符视为单个分隔符。这基本上以相当有效的方式解决了OP的问题。几天前我也在上游提交了这个补丁，希望它能合并到 coreutils 项目中。

还有一些关于向 cut 添加更多与空白相关的功能的

进一步的想法

，并且对所有这些都提供一些反馈会很棒。我愿意为

cut

实现更多补丁并将其提交到上游，这将使该实用程序在各种现实场景中更加通用且更可用。

Answer 3

您可以使用 awk 来完成 -

$ awk 'BEGIN {FS=" \|\|\| ";}{print $1}' file

用 $2、$3 等替换 $1。

如何在 Unix 中使用带有多个字符分隔符的 cut？

问题描述投票：0回答：3

3个回答

最新问题

如何在 Unix 中使用带有多个字符分隔符的 cut？

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3