在 MacOS 上将 Binary-charSet TXT 文件批量转换为 ASCII 或 UTF-8

问题描述 投票:0回答:0

为了消除文本文件中的冗余,我发现 Kdiff3 具有所需的功能——只保留未着色的文本。但是尝试将文本文件自动标记为非 UTF-8——尽管重新保存为 UTF-8。

file -I FN.EXT
显示它们是二进制的。 我试了AWK和iconv,如下

awk '/[\x80-\xFF]/ { print }' test.txt
iconv -c -t ASCII 84-0.txt > test-2.txt

但它没有转换为 ASCII 或 UTF8。 Iconv 需要一种可识别的输入格式。 所以我拼了3行代码完成了3次转换。 .

代码:

1) from TXT to PDF (on MacOS).
2) from PDF to HTML.
3) from HTML to TXT.

如下。 .

cupsfilter test.txt > test.pdf  2> /dev/null
pdftohtml test.pdf test-2.html
textutil -convert txt test-2.html

这可以但不能批量使用——最好是在嵌套文件夹中。管道操作如何转换为find/exec? (通过管道传输到 {}.txt 会生成一个名为“{}.txt”的文件。)

更改文件名以避免覆盖原始TXT文件。 转换为 HTML 会创建 3 个文件,我只使用其中的 1 个。

建议赞赏!!

html batch-file pdf ascii txt
© www.soinside.com 2019 - 2024. All rights reserved.