是否有将文档转换为纯文本的通用解决方案?

问题描述 投票:0回答:1

按文件,我的意思是单词,libreoffice等,也许还有pdf和网页。

特别是出于比较的目的,如果纯文本的顺序与打印文档的阅读者所看到的顺序相同,并且纯文本是稳定的,那就是微不足道的,那将是很好的选择。诸如使单词变成黑体字之类的更改不应更改纯文本版本。

首选Unixy的答案,但我会尽我所能!

document data-conversion
1个回答
0
投票

libreoffice在它可以读取的所有类型的内容上都做得很好:

libreoffice --headless --convert-to txt:Text name.doc

或(以bash循环):

for i in * ; 
do 
  echo "$i" ;
  libreoffice --headless --convert-to txt:Text "$i" ; 
done
© www.soinside.com 2019 - 2024. All rights reserved.