将元数据存储到Jackrabbit存储库中

问题描述 投票:8回答:4

有人可以向我解释,在以下情况下如何进行?

  1. 接收文档(MS文档,ODS,PDF)

  2. 通过Apache Tika的公共核心元数据提取+通过jackrabbit-content-extractors的内容提取

  3. 使用Jackrabbit将文档(内容)及其元数据一起存储到存储库中

  4. 检索文档+元数据

我对第3点和第4点感兴趣...

详细信息:该应用程序正在以交互方式处理文档(一些分析-语言检测,字数统计等+尽可能多地收集详细信息-都柏林核心+解析内容/事件处理),以便将处理结果返回给用户,然后将提取的内容返回给用户和元数据(提取的和自定义的用户元数据)存储到JCR存储库中>

感谢您的帮助,谢谢

有人可以向我解释,在以下情况下如何进行?接收文档(MS docs,ODS,PDF)通过Apache Tika进行双核心核心元数据提取+通过jackrabbit-content -...进行内容提取

JCR 2.0的上传文件与JCR 1.0的上传文件基本相同。但是,JCR 2.0添加了一些有用的附加内置属性定义。
“ nt:file”节点类型旨在表示文件,并且在JCR 2.0中具有两个内置属性定义(这两个属性定义都是在创建节点时由存储库自动创建的:]

jcr:创建(DATE)

jcr:createdBy(STRING)

    并定义一个名为“ jcr:content”的孩子。该“ jcr:content”节点可以是任何节点类型,但是通常来说,与内容本身有关的所有信息都存储在此子节点上。事实上的标准是使用“ nt:resource”节点类型,该节点类型定义了以下属性:
  • jcr:data(BINARY)必填
  • jcr:lastModified(DATE)自动创建

    jcr:lastModifiedBy(STRING)自动创建
  • jcr:mimeType(STRING)受保护?
  • jcr:encoding(STRING)受保护?
  • 注意,在JCR 2.0中添加了“ jcr:mimeType”和“ jcr:encoding”。
  • 特别是,“ jcr:mimeType”属性的目的是完全按照您的要求执行-捕获内容的“类型”。但是,“ jcr:mimeType”和“ jcr:encoding”属性定义可以(通过JCR实现)定义为受保护(意味着JCR实现自动设置它们)-如果是这种情况,将不允许您手动进行设置这些属性。我相信JackrabbitModeShape不会将它们视为受保护。
  • 以下代码显示了如何使用这些内置节点类型将文件上传到JCR 2.0存储库:

// Get an input stream for the file ... File file = ... InputStream stream = new BufferedInputStream(new FileInputStream(file)); Node folder = session.getNode("/absolute/path/to/folder/node"); Node file = folder.addNode("Article.pdf","nt:file"); Node content = file.addNode("jcr:content","nt:resource"); Binary binary = session.getValueFactory().createBinary(stream); content.setProperty("jcr:data",binary);

并且如果JCR实现未将“ jcr:mimeType”属性视为受保护的对象(即Jackrabbit和ModeShape),则必须手动设置此属性:

content.setProperty("jcr:mimeType","application/pdf");

元数据可以很容易地存储在“ nt:file”和“ jcr:content”节点上,但是现成的“ nt:file”和“ nt:resource”节点类型不允许额外的属性。因此,在添加其他属性之前,首先需要添加一个mixin(或多个mixin),这些mixin具有要存储的各种属性的属性定义。您甚至可以定义允许任何属性的混合。这是一个定义此类混合的CND文件:

<custom = 'http://example.com/mydomain'> [custom:extensible] mixin - * (undefined) multiple - * (undefined)

注册此节点类型定义后,可以在节点上使用它:

content.addMixin("custom:extensible"); content.setProperty("anyProp","some value"); content.setProperty("custom:otherProp","some other value");

您还可以定义并使用允许任何Dublin Core element使用的mixin:

<dc = 'http://purl.org/dc/elements/1.1/'> [dc:metadata] mixin - dc:contributor (STRING) - dc:coverage (STRING) - dc:creator (STRING) - dc:date (DATE) - dc:description (STRING) - dc:format (STRING) - dc:identifier (STRING) - dc:language (STRING) - dc:publisher (STRING) - dc:relation (STRING) - dc:right (STRING) - dc:source (STRING) - dc:subject (STRING) - dc:title (STRING) - dc:type (STRING)

所有这些属性都是可选的,并且该mixin不允许使用任何名称或类型的属性。我也并没有真正解决“ dc:metadata”混合问题,因为其中一些已经用内置属性表示(例如,“ jcr:createBy”,“ jcr:lastModifiedBy”,“ jcr:created” ,“ jcr:lastModified”,“ jcr:mimeType”),其中一些可能与内容更相关,而其他一些与文件更相关。

您当然可以定义其他更适合您的元数据需求的混合,并在需要时使用继承。但是要谨慎使用继承与mixin-因为JCR允许一个节点使用多个mixin,所以通常最好将mixin设计为范围狭窄且面向方面的(例如,“ ex:taggable”,“ ex:describable”等)。然后只需根据需要将适当的mixin应用于节点。

((甚至可能要复杂得多,但可以定义一个混合模块来允许“ nt:file”节点下的更多子节点,并在其中存储一些元数据。)

Mixins非常棒,为您的JCR内容提供了极大的灵活性和力量。

哦,当您创建了所有想要的节点后,请确保保存会话:

session.save();

我对JCR有点生疏,我从未使用过2.0,但这应该可以让您入门。
参见此link。您将要打开第二条评论。
您只将文件存储在节点中,然后将其他元数据添加到该节点。这是存储文件的方法:

Node folder = session.getRootNode().getNode("path/to/file/uploads"); Node file = folder.addNode(fileName, "nt:file"); Node fileContent = file.addNode("jcr:content"); fileContent.setProperty("jcr:data", fileStream); // Add other metadata session.save();

如何存储元数据取决于您。一种简单的方法是只存储键值对:

fileContent.setProperty(key, value, PropertyType.STRING);

要读取数据,您只需调用getProperty()

fileStream = fileContent.getProperty("jcr:data"); value = fileContent.getProperty(key);

我是Jackrabbit的新手,正在研究2.4.2。对于您的解决方案,您可以使用核心Java逻辑检查类型,并放入定义操作中任何变化的案例。
您无需担心将其他.txt或.pdf内容另存为它们的问题内容转换为二进制文件并保存。这是一个小样本,我在该样本中从jackrabbit存储库中上传和下载了pdf文件。
// Import the pdf file unless already imported // This program is for sample purpose only so everything is hard coded. if (!root.hasNode("Alfresco_E0_Training.pdf")) { System.out.print("Importing PDF... "); // Create an unstructured node under which to import the XML //Node node = root.addNode("importxml", "nt:unstructured"); Node file = root.addNode("Alfresco_E0_Training.pdf","nt:file"); // Import the file "Alfresco_E0_Training.pdf" under the created node FileInputStream stream = new FileInputStream("<path of file>\\Alfresco_E0_Training.pdf"); Node content = file.addNode("jcr:content","nt:resource"); Binary binary = session.getValueFactory().createBinary(stream); content.setProperty("jcr:data",binary); stream.close(); session.save(); //System.out.println("done."); System.out.println("::::::::::::::::::::Checking content of the node:::::::::::::::::::::::::"); System.out.println("File Node Name : "+file.getName()); System.out.println("File Node Identifier : "+file.getIdentifier()); System.out.println("File Node child : "+file.JCR_CHILD_NODE_DEFINITION); System.out.println("Content Node Name : "+content.getName()); System.out.println("Content Node Identifier : "+content.getIdentifier()); System.out.println("Content Node Content : "+content.getProperty("jcr:data")); System.out.println(":::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::"); }else { session.save(); Node file = root.getNode("Alfresco_E0_Training.pdf"); Node content = file.getNode("jcr:content"); String path = content.getPath(); Binary bin = session.getNode(path).getProperty("jcr:data").getBinary(); InputStream stream = bin.getStream(); File f=new File("C:<path of the output file>\\Alfresco_E0_Training.pdf"); OutputStream out=new FileOutputStream(f); byte buf[]=new byte[1024]; int len; while((len=stream.read(buf))>0) out.write(buf,0,len); out.close(); stream.close(); System.out.println("\nFile is created..................................."); System.out.println("done."); System.out.println("::::::::::::::::::::Checking content of the node:::::::::::::::::::::::::"); System.out.println("File Node Name : "+file.getName()); System.out.println("File Node Identifier : "+file.getIdentifier()); //System.out.println("File Node child : "+file.JCR_CHILD_NODE_DEFINITION); System.out.println("Content Node Name : "+content.getName()); System.out.println("Content Node Identifier : "+content.getIdentifier()); System.out.println("Content Node Content : "+content.getProperty("jcr:data")); System.out.println(":::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::"); } //output the repository content } catch (IOException e){ System.out.println("Exception: "+e); } finally { session.logout(); } } }

希望这会有所帮助

谁知道,如果我尝试在一个节点中存储多个文件,会怎么样?我试过了(存储2个文件),但是我的第一个文件内容被第二个文件内容替换。我的意思是,我只能使用一次JCR_DATAm JCR_CONTENT,NT_RESOURCE吗?希望有人可以帮助我,谢谢:)

java content-management-system metadata jackrabbit
4个回答
29
投票

jcr:创建(DATE)


1
投票

1
投票
© www.soinside.com 2019 - 2024. All rights reserved.