我有一个小问题,我需要在控制台中数数才能读取doc,docx,pptx,ppt,xls,xlsx,odt,pdf ...所以不要建议我| wc -w或grep,因为它们仅适用于文本或控制台输出,并且它们仅计算空格,并且在日语,中文,阿拉伯语,印度教,希伯来语中,它们使用不同的定界符,因此单词计数错误,因此我尝试用此计数]
pdftotext file.pdf -| wc -w /usr/local/bin/docx2txt.pl < file.docx | wc -w /usr/local/bin/pptx2txt.pl < file.pptx | wc -w antiword file.doc -| wc -w antiword file.word -| wc -w
在某些情况下,Microsoft Word,openoffice悲伤的1000个单词,并且如果语言是(日语,中文,印度文等),则计数器返回10或300个单词,但是如果我使用普通字符,那么我就不会遇到最大的错误在某些情况下,少3个字符的女巫是“ OK”
我曾尝试使用soffice,openoffice进行转换,然后尝试WC -w但我什至无法进行转换,
soffice --headless --nofirststartwizard --accept=socket,host=127.0.0.1,port=8100; --convert-to pdf some.pdf /var/www/domains/vocabridge.com/devel/temp_files/23/0/东京_1000_words_Docx.docx
OR
openoffice.org --headless --convert-to ........
OR
openoffice.org3 --invisible
因此,如果有人知道任何方法可以正确计数或使用openoffice或其他任何东西或Linux通过控制台显示文档统计信息,请共享它
感谢。
我有一个小问题,我需要在控制台中数数才能读取doc,docx,pptx,ppt,xls,xlsx,odt,pdf ...所以不要建议我| wc -w或grep,因为它们仅适用于文本或控制台...
[如果您具有Microsoft Word(显然是Windows),则可以编写VBA宏,或者如果要直接从命令行运行,则可以编写具有以下内容的VBScript脚本:
我找到答案创建一项服务
我认为这可能会实现您的目标
wc
可以理解Unicode,并使用系统的iswspace
函数来查找Unicode字符是否为空格。 “ iswspace()函数测试wc是否为代表程序当前语言环境中类空间字符的宽字符代码。”因此,如果您的语言环境(wc -w
)配置正确,则LC_CTYPE
应该能够正确计数单词。
只是建立在@Yawar的内容上。这是如何从控制台使用MS单词进行单词计数的更明确的步骤。