按文件,我的意思是单词,libreoffice等,也许还有pdf和网页。
特别是出于比较的目的,如果纯文本的顺序与打印文档的阅读者所看到的顺序相同,并且纯文本是稳定的,那就是微不足道的,那将是很好的选择。诸如使单词变成黑体字之类的更改不应更改纯文本版本。
首选Unixy的答案,但我会尽我所能!
libreoffice在它可以读取的所有类型的内容上都做得很好:
libreoffice --headless --convert-to txt:Text name.doc
或(以bash循环):
for i in * ;
do
echo "$i" ;
libreoffice --headless --convert-to txt:Text "$i" ;
done