parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

如何使用 Pyspark 获取跨多个文件排序的 Parquet 行组统计信息?

我的过程是创建多个镶木地板文件。在我的具体情况中,最终分区的数量为 64。单个文件约为 400MB,分为 3 行组,每组约 128MB。如果我看到...

回答 1 投票 0

Parquet 文件加载到雪花表中 - 将元素值转换为目标列数据类型问题

我有一个数据类型为 VARIANT 的表,其中包含 parquet 文件。 在此输入图像描述 我有一个格式的关系表。 创建表 xx.PUBLIC.social_test( WEB_ID 号(38,0), WEB_NAME

回答 1 投票 0

将 Azure 数据工厂中的时间戳转换为镶木地板时间戳格式

使用Azure数据工厂,我尝试以镶木地板格式保存数据。数据的保存有效,但是,我无法以正确的精度保存时间戳字段。我的理解是它不需要...

回答 1 投票 0

使用 pyarrow 从 SFTP 服务器读取/写入分区镶木地板

最近我和一些朋友开始进行数据分析,为了改善我们的数据交换,我们得到了一个 Linux 服务器,我们将其用作 SFTP 服务器。之后我们不再想将输出写入...

回答 1 投票 0

Parquet 支持的 pyspark 在查询时似乎没有使用分区进行剔除 - 为什么不呢?

我有一个项目,目前数据量相当小/简单。具有六个字段、约 100 万行、每天 22MB 的时间序列数据。 我还在学习

回答 1 投票 0

Py4JJavaError:调用 o26.parquet 时发生错误。 (读取 Parquet 文件)

尝试在 PySpark 中读取 Parquet 文件,但出现 Py4JJavaError。我什至尝试从 Spark-Shell 中读取它并且能够做到这一点。我无法理解我在这里做错了什么

回答 4 投票 0

使用 BigDecimal 以及比例和精度创建 Spark 数据框

我正在尝试使用 Spark java 在 java 代码中创建镶木地板文件。 我拥有的字段之一是浮点数,我想指定比例和精度,而不是 Spark 设置的默认值。 W...

回答 1 投票 0

pyarrow Dataset.to_batches 和 ParquetFile.iter_batches 之间的内存消耗差异

我正在使用 pyarrow,并且正在努力理解 Dataset.to_batches 方法与 ParquetFile.iter_batches 相比在内存使用方面的巨大差异。 使用 pyarrow.dataset >>> ...

回答 0 投票 0

如何将 RDS Postgres 查询结果导出到 S3 Parquet 文件中?

如何将 SQL Select 查询(在 RDS Postgres 数据库上)的结果输出为 Parquet 文件(到 S3 中)? 我已经在考虑的一些方法包括 AWS Glue(及其 JDBC 连接)、At...

回答 0 投票 0

如何从现有 parquet 文件中找到 parquet.writer.version?

我开始使用 Apache Parquet 我对 2 个版本的 writer 感到惊讶。 PARQUET_1_0(“v1”), PARQUET_2_0(“v2”); 来源:https://github.com/apache/parquet-mr/blob/...

回答 2 投票 0

如何使用pyspark加密parquet的特定列数据

我的项目中有一个要求,在将数据写入镶木地板文件时加密一些 PII 列数据。为了将数据写入 parquet 文件中,使用了 Azure Synapse pyspark 笔记本。 不是...

回答 1 投票 0

将时间序列数据持续加载到分区文件夹中

我有一些传入数据每小时刷新一次。因此,我每小时都会收到来自不同气象站的最新测量数据。我所做的就是先上演它,所以它看起来像

回答 0 投票 0

使用 pyarrow 从镶木地板文件中读取行组时,有没有办法应用自定义过滤器?

我试图弄清楚 Modin 如何实现使用过滤器读取 Parquet 文件的功能,其行为与 pandas.read_parquet('my_parquet_file.parquet',filters=[('col', '==' ,'...

回答 0 投票 0

镶木地板行组大小的实际含义是什么?

我开始使用镶木地板文件格式。 Apache 官方网站建议使用 512MB 到 1GB 的大行组(此处)。 几个在线资源(例如这个)建议默认行 g...

回答 0 投票 0

在 S3 上使用 scan_parquet 和 scan_pyarrow_dataset 将整个数据集加载到内存中

我有一个大型的分区镶木地板数据集,该数据集无法装入内存并存储在 S3 位置。一段处理代码旨在通过执行 j...

回答 0 投票 0

使用另一个同名文件手动更改基础镶木地板文件后如何刷新增量表?

我在数据块中有一张表。我们称其为“tableA”。这张表不是我创建的。因此,为了获取其文件的存储位置,我检查了该表的存储位置。我发现它是 Azure BLOB

回答 1 投票 0

如何在golang中将spanner行提取为Json或Parquet格式?

我是 golang 和 Spanner 的新手,我想每 5 分钟将 Spanner 数据库的快照保存到 Google 云存储。我想使用的格式是 Parquet 或 JSON。 stmt = spanner.NewStatement("S...

回答 3 投票 0

使用 Synapse 从 parquet 创建带有日期时间/日期列的外部表

我尝试从存储在 Azure 数据湖中的外部文件创建外部表。 但我很难处理镶木地板文件中的日期时间和日期列! 这是我尝试创建的代码

回答 1 投票 0

如何使用 Drill 查询 parquet 中的 WKT 列?

我想在 Apache Drill 中查询的镶木地板文件中有地理空间数据的文本 WKT 列。我正在运行 Drill 版本 1.21.1。 镶木地板文件具有这种布局(来自镶木地板工具的输出): ....

回答 0 投票 0

使用 Apache Beam 时指定镶木地板文件大小

我正在尝试扩展 Google 的 Dataflow 模板以将数据从 BQ 移动到 Cloud Storage 上的 parquet 文件,但我在尝试控制 parquet 文件大小时受阻。 https://cloud.google.com/dataflow/docs/...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.