parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

如何使用 Pyspark 获取跨多个文件排序的 Parquet 行组统计信息？

我的过程是创建多个镶木地板文件。在我的具体情况中，最终分区的数量为 64。单个文件约为 400MB，分为 3 行组，每组约 128MB。如果我看到...

apache-spark pyspark parquet

回答 1 投票 0

Parquet 文件加载到雪花表中 - 将元素值转换为目标列数据类型问题

我有一个数据类型为 VARIANT 的表，其中包含 parquet 文件。在此输入图像描述我有一个格式的关系表。创建表 xx.PUBLIC.social_test( WEB_ID 号(38,0), WEB_NAME

snowflake-cloud-data-platform parquet snowflake-schema

回答 1 投票 0

将 Azure 数据工厂中的时间戳转换为镶木地板时间戳格式

使用Azure数据工厂，我尝试以镶木地板格式保存数据。数据的保存有效，但是，我无法以正确的精度保存时间戳字段。我的理解是它不需要...

azure azure-data-factory parquet azure-machine-learning-service

回答 1 投票 0

使用 pyarrow 从 SFTP 服务器读取/写入分区镶木地板

最近我和一些朋友开始进行数据分析，为了改善我们的数据交换，我们得到了一个 Linux 服务器，我们将其用作 SFTP 服务器。之后我们不再想将输出写入...

python parquet pyarrow fsspec

回答 1 投票 0

Parquet 支持的 pyspark 在查询时似乎没有使用分区进行剔除 - 为什么不呢？

我有一个项目，目前数据量相当小/简单。具有六个字段、约 100 万行、每天 22MB 的时间序列数据。我还在学习

apache-spark pyspark apache-spark-sql parquet

回答 1 投票 0

Py4JJavaError：调用 o26.parquet 时发生错误。（读取 Parquet 文件）

尝试在 PySpark 中读取 Parquet 文件，但出现 Py4JJavaError。我什至尝试从 Spark-Shell 中读取它并且能够做到这一点。我无法理解我在这里做错了什么

python-3.x apache-spark pyspark parquet

回答 4 投票 0

使用 BigDecimal 以及比例和精度创建 Spark 数据框

我正在尝试使用 Spark java 在 java 代码中创建镶木地板文件。我拥有的字段之一是浮点数，我想指定比例和精度，而不是 Spark 设置的默认值。 W...

apache-spark apache-spark-sql parquet

回答 1 投票 0

pyarrow Dataset.to_batches 和 ParquetFile.iter_batches 之间的内存消耗差异

我正在使用 pyarrow，并且正在努力理解 Dataset.to_batches 方法与 ParquetFile.iter_batches 相比在内存使用方面的巨大差异。使用 pyarrow.dataset >>> ...

parquet pyarrow apache-arrow

回答 0 投票 0

如何将 RDS Postgres 查询结果导出到 S3 Parquet 文件中？

如何将 SQL Select 查询（在 RDS Postgres 数据库上）的结果输出为 Parquet 文件（到 S3 中）？我已经在考虑的一些方法包括 AWS Glue（及其 JDBC 连接）、At...

postgresql amazon-web-services amazon-rds aws-glue parquet

回答 0 投票 0

如何从现有 parquet 文件中找到 parquet.writer.version？

我开始使用 Apache Parquet 我对 2 个版本的 writer 感到惊讶。 PARQUET_1_0（“v1”）， PARQUET_2_0（“v2”）；来源：https://github.com/apache/parquet-mr/blob/...

apache-spark parquet iceberg parquet-mr

回答 2 投票 0

如何使用pyspark加密parquet的特定列数据

我的项目中有一个要求，在将数据写入镶木地板文件时加密一些 PII 列数据。为了将数据写入 parquet 文件中，使用了 Azure Synapse pyspark 笔记本。不是...

azure pyspark encryption parquet azure-synapse

回答 1 投票 0

将时间序列数据持续加载到分区文件夹中

我有一些传入数据每小时刷新一次。因此，我每小时都会收到来自不同气象站的最新测量数据。我所做的就是先上演它，所以它看起来像

apache-spark pyspark parquet partitioning

回答 0 投票 0

使用 pyarrow 从镶木地板文件中读取行组时，有没有办法应用自定义过滤器？

我试图弄清楚 Modin 如何实现使用过滤器读取 Parquet 文件的功能，其行为与 pandas.read_parquet('my_parquet_file.parquet',filters=[('col', '==' ，'...

python parquet pyarrow

回答 0 投票 0

镶木地板行组大小的实际含义是什么？

我开始使用镶木地板文件格式。 Apache 官方网站建议使用 512MB 到 1GB 的大行组（此处）。几个在线资源（例如这个）建议默认行 g...

parquet pyarrow

回答 0 投票 0

在 S3 上使用 scan_parquet 和 scan_pyarrow_dataset 将整个数据集加载到内存中

我有一个大型的分区镶木地板数据集，该数据集无法装入内存并存储在 S3 位置。一段处理代码旨在通过执行 j...

python amazon-s3 parquet python-polars pyarrow

回答 0 投票 0

使用另一个同名文件手动更改基础镶木地板文件后如何刷新增量表？

我在数据块中有一张表。我们称其为“tableA”。这张表不是我创建的。因此，为了获取其文件的存储位置，我检查了该表的存储位置。我发现它是 Azure BLOB

databricks azure-databricks parquet delta-lake

回答 1 投票 0

如何在golang中将spanner行提取为Json或Parquet格式？

我是 golang 和 Spanner 的新手，我想每 5 分钟将 Spanner 数据库的快照保存到 Google 云存储。我想使用的格式是 Parquet 或 JSON。 stmt = spanner.NewStatement("S...

json go parquet google-cloud-spanner

回答 3 投票 0

使用 Synapse 从 parquet 创建带有日期时间/日期列的外部表

我尝试从存储在 Azure 数据湖中的外部文件创建外部表。但我很难处理镶木地板文件中的日期时间和日期列！这是我尝试创建的代码

tsql parquet azure-synapse azure-data-lake-gen2

回答 1 投票 0

如何使用 Drill 查询 parquet 中的 WKT 列？

我想在 Apache Drill 中查询的镶木地板文件中有地理空间数据的文本 WKT 列。我正在运行 Drill 版本 1.21.1。镶木地板文件具有这种布局（来自镶木地板工具的输出）： ....

parquet apache-drill

回答 0 投票 0

使用 Apache Beam 时指定镶木地板文件大小

我正在尝试扩展 Google 的 Dataflow 模板以将数据从 BQ 移动到 Cloud Storage 上的 parquet 文件，但我在尝试控制 parquet 文件大小时受阻。 https://cloud.google.com/dataflow/docs/...

java hadoop google-cloud-dataflow apache-beam parquet

回答 0 投票 0

parquet 相关问题

最新问题