parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

如何在下载完成后只下载 HuggingFace 数据集的 .parquet 文件而不生成 .arrow 文件?

我想下载HuggingFace数据集的所有.parquet文件,例如uonlp/CulturaX,下载完成后不会生成 .arrow 文件。 如果我使用: 从数据集导入load_datase...

回答 1 投票 0

有没有办法从Java中的InputStream读取镶木地板文件?

我正在尝试从S3读取镶木地板记录,S3通常返回一个输入流,我想从中检索数据。我使用 java ,我不想使用 Spark 的内置阅读器。有没有...

回答 1 投票 0

使用 ruby 修改 Parquet 文件中的列类型(使用 parquet Gem)

我的数据仓库中有许多 Parquet 文件。一些早期的文件 ~700 将列的架构类型设置为字符串,而它们本应为 int32。了解 Parquet 是免疫的...

回答 1 投票 0

将数据从 Postgres 数据库导出到 Parquet 文件

我想安装一个扩展以将数据从 PostgreSQL 数据库导出到 Parquet 文件中。数据库正在 Docker 容器中运行,我不知道如何操作。 我尝试了一些解决方案......

回答 1 投票 0

当 JSON 源将所需值作为键时,Azure 数据工厂接收器作为镶木地板

我正在 Azure 数据工厂中使用复制活动。 Source 调用 API 请求并返回 JSON 响应。不同的API调用,用户id和用户数量不同。 JSON 响应示例...

回答 1 投票 0

是否有一种轻松的方法将现有 Parquet 文件迁移到新架构?我希望更新 AWS Glue 表列数据类型

背景 我们使用 AWS Glue 4.0 进行 ETL 处理作业。 每个 Glue 作业 (PySpark) 都会读取和写入 AWS Glue 表。这些表是使用 CloudFormation 模板定义的,并将数据存储为 P...

回答 1 投票 0

Spark读取Json数据时如何将datetime字符串改为timestamp[us]

我有一些以 JSON 格式存储的数据,如下所示: { “id”:1, "时间":"2023-01-01 12:34:56" } 我还有一个具有相同列的 Apache Hudi 表。 Hudi 的架构

回答 1 投票 0

如何使用 pyarrow 15.0.0 预索引 parquet 数据集?

我有一个存储在 Azure 存储容器中的镶木地板数据集。 parquet 文件已分区,所有文件都具有如下路径: 经验=AB1234/ 日期=2024-02-01/ 速度=100/ ...

回答 1 投票 0

如何将数据从Python函数流式传输到镶木地板文件?

我有一个 python 文件,它对文件列表执行一些操作。生成的数据帧约为 6 GB,因此我需要使用数据库或使用 parquet 对其进行压缩。问题是,数据被生成了......

回答 1 投票 0

从命令行检查 S3 中的 Parquet

我可以使用以下命令下载单个 snappy.parquet 分区文件: aws s3 cp s3://bucket/my-data.parquet/my-data-0000.snappy.parquet ./my-data-0000.snappy.parquet 然后使用: 镶木地板工具头我的数据...

回答 3 投票 0

WHERE 子句是否被推入带有 QUALIFY 子句的 VIEWS 中?

如果 VIEW 的定义具有 QUALIFY 子句,则从视图中进行选择时,WHERE 子句是否会被下推,或者是在应用 WHERE 子句之前评估整个视图 SQL? 例如。, 创建视图

回答 1 投票 0

在更改分区之前重新读取由 PyArrow fsspec 缓存的 s3 parquet 分区时出现 FileNotFoundError

要复制的事件顺序如下: 使用 pandas.read_parquet (底层是 pyarrow.dataset)读取 s3 parquet 分区。 将另一个文件添加到该分区中。 阅读...

回答 1 投票 0

加入 1.4 亿条记录的 CRM 时出现内存不足错误 - 使用 DuckDB 和 R

我没有找到问题的确切解决方案,必须从不同来源收集信息才能找到可行的解决方案。我在这里记录(通过回答)以供参考。 问题站...

回答 1 投票 0

为什么Polars流媒体引擎这么慢?

我有一个镶木地板文件目录,我希望对所有这些文件应用一个函数并取平均值。 起初我以为 Polars 会凭借 LazyFrame 和流媒体功能在这方面表现出色......

回答 1 投票 0

使用 Parquet.Net 读取 parquet 文件错误“目标太短”

在这个项目中,有一个 C# API,我需要构建一个简单的程序来读取 parquet 文件并以 json 形式返回它。通常我使用 python,在 python 中读取 parquet 文件很简单......

回答 1 投票 0

在 R 中使用 parquet 处理大数据集

目前我正在 R 计算机中处理巨大的数据集(9000 万行和 30 列),但是我当时只需要分析几列和行,并且我需要以有效的方式进行处理。 .

回答 1 投票 0

对 PyArrow Parquet 文件进行分区并将其写入数据集

我有一个 PyArrow Parquet 文件太大,无法在内存中处理。因为数据可以很容易地划分到不同的分片中,所以我想手动对其进行划分并创建一个 PyArrow 数据集...

回答 1 投票 0

OSError:无法反序列化thrift:没有更多数据可供读取。反序列化页眉失败

我正在从事件中心获取数据并将其上传到带有 blob_type AppendBlob 的 blob,它会正确附加,但是当我下载并尝试读取该镶木地板文件时,它会显示此错误 OSError:

回答 1 投票 0

java.lang.NoSuchFieldError:尝试运行 Apache Arrow 示例程序时,chunkSize 可见

当尝试运行 Apache arrow 网站上的第一个 Java 示例程序时,在 this.chunkSize = this.directArenas[0].chunkSize; 行中可以看到 No such field error for chunkSize; 完整的电子...

回答 1 投票 0

如何通过模式自动检测将 Parquet/AVRO 加载到 Snowflake 中的多个列中?

当尝试将 Parquet/AVRO 文件加载到 Snowflake 表中时,出现错误: PARQUET 文件格式可以生成一且仅一列类型变体或对象或数组。如果您愿意,请使用 CSV 文件格式

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.