我将如何使用sed删除文本文件中包含特定字符串的所有行?
删除行并将输出打印到标准输出:
sed '/pattern to match/d' ./infile
直接修改文件–不适用于BSD sed:
sed -i '/pattern to match/d' ./infile
相同,但对于BSD sed(Mac OS X和FreeBSD)–不适用于GNU sed:
sed -i '' '/pattern to match/d' ./infile
直接修改文件(并创建备份)–与BSD和GNU sed一起使用:
sed -i.bak '/pattern to match/d' ./infile
[sed
以外,还有许多其他删除具有特定字符串的行的方法:
awk '!/pattern/' file > temp && mv temp file
ruby -i.bak -ne 'print if not /test/' file
perl -ni.bak -e "print unless /pattern/" file
while read -r line
do
[[ ! $line =~ pattern ]] && echo "$line"
done <file > o
mv o file
grep -v "pattern" file > temp && mv temp file
当然,sed
(打印反色比实际删除要快):
sed -n '/pattern/!p' file
您可以使用sed替换文件中的行。但是,这似乎比使用grep取反将其慢进第二个文件,然后将第二个文件移到原始文件上要慢得多。
例如
sed -i '/pattern/d' filename
或
grep -v "pattern" filename > filename2; mv filename2 filename
无论如何,第一个命令在我的计算机上需要花费3倍的时间。
使用GNU sed
的简单方法:
sed --in-place '/some string here/d' yourfile
您可以考虑使用ex
(这是标准的基于Unix命令的编辑器):
ex
其中:
ex +g/match/d -cwq file
执行给定的Ex命令(+
),与执行man ex
(写并退出)的-c
相同wq
-用命令删除具有给定g/match/d
的行,请参阅:match
以上示例是根据此Power of g和post at Unix.SE的就地编辑文件的POSIX兼容方法。
与POSIX specifications for ex
的区别在于:
ex
是S Treat ED监视器,不是文件编辑器。sed
除非您喜欢不可移植的代码,I / O开销和其他一些不良影响。因此,基本上,某些参数(例如in-place / sed
)是非标准的FreeBSD扩展,在其他操作系统上可能不可用。
我在Mac上为此苦苦挣扎。另外,我需要使用变量替换来完成它。
所以我用过:
其中-i
是需要删除的文件,sed -i '' "/$pattern/d" $file
是要匹配的删除模式。
我从此$file
中选择了$pattern
。
这里要注意的是在''
中使用双引号。当我们使用单引号时,变量将不起作用。
我用一个包含大约345 000行的文件做了一个小的基准测试。在这种情况下,使用comment的方法似乎比"/$pattern/d"
方法快15倍。
我尝试过在设置LC_ALL = C和不设置LC_ALL = C的情况下,似乎都不会显着改变计时。搜索字符串(CDGA_00004.pdbqt.gz.tar)在文件中间。
以下是命令和时间:
grep
您也可以使用此:
sed
这里time sed -i "/CDGA_00004.pdbqt.gz.tar/d" /tmp/input.txt
real 0m0.711s
user 0m0.179s
sys 0m0.530s
time perl -ni -e 'print unless /CDGA_00004.pdbqt.gz.tar/' /tmp/input.txt
real 0m0.105s
user 0m0.088s
sys 0m0.016s
time (grep -v CDGA_00004.pdbqt.gz.tar /tmp/input.txt > /tmp/input.tmp; mv /tmp/input.tmp /tmp/input.txt )
real 0m0.046s
user 0m0.014s
sys 0m0.019s
将仅打印您的图案以外的内容(这意味着反转匹配)。
要使用 grep -v 'pattern' filename
获得类似结果的位置,您可以这样做:
-v
-n '/James\|John/!p'
第一个命令就地编辑文件(-i)。
第二个命令执行相同的操作,但是通过在文件名中添加.bk来保留原始文件的副本或备份(.bk可以更改为任何内容。
[如果有人要对字符串进行精确匹配,可以在grep-w中使用'!/James|John/'
标志作为整体。也就是说,例如,如果您要删除编号为11的行,而保留编号为111的行:
/James|John/ {next;} {print}
如果您想一次排除多个精确模式,它也与/James|John/ {next;} {print}
标志一起使用。如果“黑名单”是您要从“文件”中删除的每一行都有多个模式的文件:
-v 'James\|John'
-v 'James\|John'
以在控制台中显示已处理的文本
perl -i -nle'/regexp/||print' file1 file2 file3
perl -i.bk -nle'/regexp/||print' file1 file2 file3
将处理过的文本保存到文件中
echo -e "/thing_to_delete\ndd\033:x\n" | vim file_to_edit.txt
将已处理的文本信息附加到现有文件中
-w
要处理已处理的文本,在这种情况下,请删除更多已删除的行
-bash-4.1$ head file
1
11
111
-bash-4.1$ grep -v "11" file
1
-bash-4.1$ grep -w -v "11" file
1
111
-f
将一次显示一页的文本。
您可以使用较旧的grep -w -v -f blacklist file
来编辑文件,类似于使用cat filename | grep -v "pattern" > filename.1
mv filename.1 filename
的cat filename | sed '/text to remove/d'
。在这种情况下,最大的区别是cat filename | sed '/text to remove/d' > newfile
通过标准输入获取命令,而不是像cat filename | sed '/text to remove/d' >> newfile
那样使用命令行参数。在脚本中使用它时,通常的适应方法是使用cat filename | sed '/text to remove/d' | sed '/remove this too/d' | more
将命令传递给它:
| more
或带有heredoc:
ed