用于强大文档转换服务的Java框架

问题描述 投票:1回答:1

我正在开始一个新的开源项目,以开发一个应用程序,该应用程序将提供将各种文档转换为其他格式(例如doc-> html,pdf-> html,纯文本-> html等)的服务。它将利用许多其他开源工具来促进文档转换。

我正在寻找可用于此目的的框架。该应用程序的主要要求如下:

  • 既提供直接使用的库,又提供公开基础库的Web服务。
  • 提供面向插件的服务。这意味着它应该允许用于转换文档的工具由客户端插入和拔出。这使工具可以转换文档,以便将来添加和删除。
  • 提供后备机制。这意味着,如果先前使用的工具无法转换文档,它应该可以退回到使用已安装的其他工具的位置。例如,使用工具A,工具A失败,使用工具B,工具B也失败,使用工具C,工具C成功,停止并返回结果。
  • 应该坚固。如果工具崩溃,则不应删除整个应用程序。
  • 故障恢复。能够在灾难性事件中重新启动。

有人对Java现有框架有什么建议,可以用来满足大多数(如果不是全部)上述要求?

谢谢!

PS。我目前正在研究UIMA (Unstructured Information Management Architecture)框架。我知道UIMA通常用于自然语言处理,以检索文本文档的实体,但是从表面上看(从阅读手册开始-没有做任何进一步的尝试),它看起来相当不错,并且可能足够灵活,可以进行调整以满足我的要求。以上要求。有人对UIMA有经验吗?请根据以上列出的要求将您的经验(正反)一起用作应用程序的框架是否可行。

java frameworks document-conversion uima
1个回答
1
投票

Apache Coccoon听起来最接近您所描述的内容,但是我不知道它的失败特征。 UIMA最通常用于构建文本挖掘管道,这与您所描述的不完全相同。

我怀疑您需要自己写点东西。对于插件方面,您将定义一个接口和一个中央抽象,然后使用Spring / Guice / OSGI或类似的东西来管理实现。

您可能会发现像JHOVE这样的格式标识框架很有用。

© www.soinside.com 2019 - 2024. All rights reserved.