我正在开始一个新的开源项目,以开发一个应用程序,该应用程序将提供将各种文档转换为其他格式(例如doc-> html,pdf-> html,纯文本-> html等)的服务。它将利用许多其他开源工具来促进文档转换。
我正在寻找可用于此目的的框架。该应用程序的主要要求如下:
有人对Java现有框架有什么建议,可以用来满足大多数(如果不是全部)上述要求?
谢谢!
PS。我目前正在研究UIMA (Unstructured Information Management Architecture)框架。我知道UIMA通常用于自然语言处理,以检索文本文档的实体,但是从表面上看(从阅读手册开始-没有做任何进一步的尝试),它看起来相当不错,并且可能足够灵活,可以进行调整以满足我的要求。以上要求。有人对UIMA有经验吗?请根据以上列出的要求将您的经验(正反)一起用作应用程序的框架是否可行。
Apache Coccoon听起来最接近您所描述的内容,但是我不知道它的失败特征。 UIMA最通常用于构建文本挖掘管道,这与您所描述的不完全相同。
我怀疑您需要自己写点东西。对于插件方面,您将定义一个接口和一个中央抽象,然后使用Spring / Guice / OSGI或类似的东西来管理实现。
您可能会发现像JHOVE这样的格式标识框架很有用。