试图从UNIX文件中删除不可打印的字符（垃圾值）

Question

我正在尝试从文件中的记录中删除不可打印的字符（例如^@）。由于使用循环的时间过多，因此无法使用cat来记录文件的容量太大。我尝试使用

sed -i 's/[^@a-zA-Z 0-9`~!@#$%^&*()_+\[\]\\{}|;'\'':",.\/<>?]//g' FILENAME

但仍然不会删除^@字符。我也尝试使用

awk '{ sub("[^a-zA-Z0-9\"!@#$%^&*|_\[](){}", ""); print } FILENAME > NEW FILE

但是它也没有帮助。

有人可以建议其他方法来删除不可打印的字符吗？

使用tr -cd，但它正在删除重音字符。但是它们是文件中必需的。

Answer 1

也许您可以使用[:print:]的补码，其中包含所有可打印的字符：

tr -cd '[:print:]' < file > newfile

如果您的tr版本不支持多字节字符（似乎很多字符不支持，这对我来说适用于GNU sed（具有UTF-8语言环境设置）：

sed 's/[^[:print:]]//g' file

Answer 2

首先删除所有控制字符：

tr -dc '\007-\011\012-\015\040-\376' < file > newfile

然后尝试输入您的字符串：

sed -i 's/[^@a-zA-Z 0-9`~!@#$%^&*()_+\[\]\\{}|;'\'':",.\/<>?]//g' newfile

我相信您看到的^@实际上是零值\0。上方的tr过滤器也会将其删除。

Answer 3

0
投票

strings -1 file... > outputfile

似乎可以工作