parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

为什么字典页面偏移0为“plain_dictionary”编码?

镶木地板由Spark v2.4 Parquet-mr v1.10生成n = 10000 x = [1.0,2.0,3.0,4.0,5.0,5.0,无] * ny = [u'é',u'é',u 'é',u'é',u'a',None,u'a'] * nz = np.random.rand(len(x))。tolist()......

回答 1 投票 1

PySpark:使用具有1000个字段但具有可变列数的行的模式创建RDD-> DF-> Parquet

我正在尝试阅读一个ElasticSearch索引,该索引有数百万个文档,每个文档都有可变数量的字段。我有一个拥有1000个字段的模式,每个字段都有自己的名称和类型。现在当我...

回答 1 投票 2

使用AWS java lambda将镶木地板文件写入S3

我正在编写AWS lambda,它从Kinesis读取protobuf对象,并希望将它们作为镶木地板文件写入s3。我看到有一个ParquetWriter for protobuf的实现称为...

回答 2 投票 1

Dremel - 重复和定义级别

阅读Web规模数据集论文的互动分析,我碰到了重复和定义层次的概念。虽然我理解这两者的必要性,但能够消除歧义......

回答 1 投票 6

使用Google Dataflow转换的Avro vs Parquet在Google云端存储中

使用Google Dataflow服务将来自Kafka的相同10k json记录批量加载到Google云存储中。以下是使用Apache Beam的AvroIO生成的文件分解,......

回答 1 投票 2

如何使用org.apache.parquet.hadoop.ParquetWriter将NULL值写入镶木地板?

我有一个工具,它使用org.apache.parquet.hadoop.ParquetWriter将CSV数据文件转换为镶木地板数据文件。我可以很好地编写基本的原始类型(INT32,DOUBLE,BINARY字符串)。我需要 ...

回答 1 投票 0

Pyspark新手 - 导入CSV并使用数组列创建镶木地板文件

我是Pyspark的新手,我一直在努力完成我认为相当简单的事情。我正在尝试进行ETL过程,其中csv文件转换为镶木地板文件。 ......

回答 1 投票 0

从镶木地板中删除数据导致它*大小*增长*为什么?

最近我们发现由于我们的ETL中存在问题,我们的parquets中有重复的行。我们启动了一个项目来删除重复的行(读取parquets,重复数据删除和写回)。 ...

回答 2 投票 1

更改表列名称拼花格式Hadoop

我的表有列a,b,c。 hdfs上的数据存储为镶木地板,即使镶木地板已经用a,b,c的模式编写,也可以更改特定的列名称。

回答 1 投票 0

镶嵌1.11.0的OffsetIndex

从镶木地板1.10.0开始,镶木地板引入了两个新的索引结构,即ColumnIndex和OffsetIndex。该文件在这里https://github.com/apache/parquet-format/blob/master/PageIndex.md来自......

回答 1 投票 0

如何识别Pandas的Parquet后端

据我所知,Pandas可以使用不同的后端读取和写入Parquet文件:pyarrow和fastparquet。我有一个带有英特尔发行版的Conda发行版并且“它有效”:我可以......

回答 2 投票 5

如何从镶木地板文件中选择13位数时间戳列,将其转换为日期并存储为数据框?

由于我是Apache spark和Scala方法的新手,我想执行以下需求。 - 从镶木地板文件(13位数字时间戳)中读取特定列。 - 将时间戳转换为普通日期......

回答 1 投票 -2

列名称中的空格抛出异常,而镶木地板用于压缩

将数据插入到具有空格的列名称的镶木地板格式表中时,我遇到错误。使用Cloudera版本的Hive客户端CREATE TABLE testColumNames(First Name string)...

回答 2 投票 1

数据存在于HDFS中,但未在hive表中获取

我已经通过spark程序从hive表加载记录,数据成功加载到HDFS但是记录没有在Hive表中获取。请在下面找到我们正在使用的压缩技术。 ...

回答 1 投票 0

使用嵌套数组和StructType Spark Scala展平Parquet文件

我希望有效地在Spark中使用Scala动态压平镶木地板文件。我想知道实现这一目标的有效方法。镶木地板文件包含多个Array和Struct Type ...

回答 1 投票 0

AWS Glue Bookmark生成重复项

我正在向Glue Job提交一个Python脚本(实际上是pyspark)来处理镶木地板文件并从该数据源中提取一些分析。这些镶木地板文件存在于S3文件夹中并且不断...

回答 1 投票 0

如何逐行加载镶木地板文件

为了节省笔记本电脑的空间,我通过dask将一个相当大的数据集保存为镶木地板文件。并且想知道是否有一种方法可以逐行读取镶木地板文件。谢谢您的帮助。

回答 1 投票 -1

用timedeltas写pandas数据帧到镶木地板

我似乎无法通过pyarrow将包含timedeltas的pandas数据帧写入镶木地板文件。 pyarrow文档指定它可以处理具有ms精度的numpy timedeltas64。但是,......

回答 1 投票 3

Dask Parquet使用数据模式加载文件

这是与此帖有关的问题。我正在试验Dask和Parquet文件。我加载了我在这里下载的纽约停车违规数据。我读了数据文件,找到了常见的列,......

回答 2 投票 0

Apache Parquet Java API的文档?

我想使用Apache的parquet-mr项目以Java编程方式读/写Parquet文件。我似乎无法找到有关如何使用此API的任何文档(除了通过...

回答 4 投票 7

© www.soinside.com 2019 - 2024. All rights reserved.