在avro序列化数据上构建搜索层索引

问题描述 投票:1回答:1

我在hdfs上有我的avro序列化数据。现在我正在尝试构建一个搜索界面,我可以在其中查询avro数据并获取结果。我可以使用以下方法,但它有一些不利之处:

反序列化avro数据并将其添加到hive存储中,并使用一些solr / lucene构建索引层并运行查询。如果avro架构有多个层,例如

   {
        name: "xyz",
        height: "180cm",
        Cities_residing: ["X", "Y", "Z"]
        Hotels_checkedin : ["X", "Y", "Z"],
        itemX : {
            itemY : {
                itemZ : "546"
                    }
                }
    }

现在,存储上述分层数据记录将是困难的。此外,我不想复制数据,如反序列化avro记录和存储在某些文档存储中。它介绍了很多复制。因此,我正在寻找一个avro序列化数据(具有多个层次结构)的搜索工具。如果现有工具已经解决了这个问题。请指出那些。

hadoop serialization solr avro
1个回答
0
投票

大型云提供商现在拥有搜索avro文件的解决方案。 AWS AthenaBigQuery是可以解决您的问题的两个服务示例。特别是如果您愿意从hdfs切换到S3或类似的服务。

© www.soinside.com 2019 - 2024. All rights reserved.