Apache Avro-内部表示形式

问题描述 投票:0回答:1

我正在学习Apache Avro,我想知道它在内部如何表示。如果我要针对同一问题描述Apache Parquet,我可以说每个Parquet文件都是由row_groups组成的,每个row_groups包含列块,而列块具有多个具有不同编码的页面。最后,关于所有这些的元数据存储在文件页脚中。 Github page以及其官方Apache page中清楚地记录了这种文件表示形式。

为了找到与Apache Avro相同的内部表示,我浏览了多个页面,例如Github page,Apache Avro的home和Hadoop权威书籍guide,以及其他许多在线教程,但我找不到我要的内容。寻找。我了解Apache Avro是面向行的文件格式,每个文件都具有架构以及文件中的数据。所有这些都很好,但是我想知道如何进一步细分内部组织的数据,例如RDBMS表的页面。

与此有关的任何指针将受到高度赞赏。

我正在学习Apache Avro,我想知道它在内部如何表示。如果我要针对同一问题描述Apache Parquet,我可以说每个Parquet文件都是...

hadoop avro parquet
1个回答
0
投票

Avro容器文件格式在其文档here中指定。如果您全神贯注,那么Wikipedia会更精简description

© www.soinside.com 2019 - 2024. All rights reserved.