Openoffice可以对控制台中的单词计数吗?

问题描述 投票:5回答:5

我有一个小问题,我需要在控制台中数数才能读取doc,docx,pptx,ppt,xls,xlsx,odt,pdf ...所以不要建议我| wc -w或grep,因为它们仅适用于文本或控制台输出,并且它们仅计算空格,并且在日语,中文,阿拉伯语,印度教,希伯来语中,它们使用不同的定界符,因此单词计数错误,因此我尝试用此计数]

pdftotext file.pdf -| wc -w
/usr/local/bin/docx2txt.pl < file.docx | wc -w
/usr/local/bin/pptx2txt.pl < file.pptx | wc -w
antiword file.doc -| wc -w 
antiword file.word -| wc -w

在某些情况下,Microsoft Word,openoffice悲伤的1000个单词,并且如果语言是(日语,中文,印度文等),则计数器返回10或300个单词,但是如果我使用普通字符,那么我就不会遇到最大的错误在某些情况下,少3个字符的女巫是“ OK”

我曾尝试使用soffice,openoffice进行转换,然后尝试WC -w但我什至无法进行转换,

soffice --headless --nofirststartwizard --accept=socket,host=127.0.0.1,port=8100; --convert-to pdf some.pdf /var/www/domains/vocabridge.com/devel/temp_files/23/0/东京_1000_words_Docx.docx 

OR

 openoffice.org  --headless  --convert-to  ........

OR

openoffice.org3 --invisible 

因此,如果有人知道任何方法可以正确计数或使用openoffice或其他任何东西或Linux通过控制台显示文档统计信息,请共享它

感谢。

我有一个小问题,我需要在控制台中数数才能读取doc,docx,pptx,ppt,xls,xlsx,odt,pdf ...所以不要建议我| wc -w或grep,因为它们仅适用于文本或控制台...

console openoffice.org word-count
5个回答
2
投票

[如果您具有Microsoft Word(显然是Windows),则可以编写VBA宏,或者如果要直接从命令行运行,则可以编写具有以下内容的VBScript脚本:


1
投票

我找到答案创建一项服务


0
投票

我认为这可能会实现您的目标


0
投票

wc可以理解Unicode,并使用系统的iswspace函数来查找Unicode字符是否为空格。 “ iswspace()函数测试wc是否为代表程序当前语言环境中类空间字符的宽字符代码。”因此,如果您的语言环境(wc -w)配置正确,则LC_CTYPE应该能够正确计数单词。


0
投票

只是建立在@Yawar的内容上。这是如何从控制台使用MS单词进行单词计数的更明确的步骤。

© www.soinside.com 2019 - 2024. All rights reserved.