parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

如何在下载完成后只下载 HuggingFace 数据集的 .parquet 文件而不生成 .arrow 文件？

我想下载HuggingFace数据集的所有.parquet文件，例如uonlp/CulturaX，下载完成后不会生成 .arrow 文件。如果我使用：从数据集导入load_datase...

python download parquet huggingface huggingface-datasets

回答 1 投票 0

有没有办法从Java中的InputStream读取镶木地板文件？

我正在尝试从S3读取镶木地板记录，S3通常返回一个输入流，我想从中检索数据。我使用 java ，我不想使用 Spark 的内置阅读器。有没有...

java amazon-s3 bigdata parquet

回答 1 投票 0

使用 ruby 修改 Parquet 文件中的列类型（使用 parquet Gem）

我的数据仓库中有许多 Parquet 文件。一些早期的文件 ~700 将列的架构类型设置为字符串，而它们本应为 int32。了解 Parquet 是免疫的...

ruby parquet data-warehouse

回答 1 投票 0

将数据从 Postgres 数据库导出到 Parquet 文件

我想安装一个扩展以将数据从 PostgreSQL 数据库导出到 Parquet 文件中。数据库正在 Docker 容器中运行，我不知道如何操作。我尝试了一些解决方案......

linux database postgresql docker parquet

回答 1 投票 0

当 JSON 源将所需值作为键时，Azure 数据工厂接收器作为镶木地板

我正在 Azure 数据工厂中使用复制活动。 Source 调用 API 请求并返回 JSON 响应。不同的API调用，用户id和用户数量不同。 JSON 响应示例...

json azure-data-factory parquet data-engineering

回答 1 投票 0

是否有一种轻松的方法将现有 Parquet 文件迁移到新架构？我希望更新 AWS Glue 表列数据类型

背景我们使用 AWS Glue 4.0 进行 ETL 处理作业。每个 Glue 作业 (PySpark) 都会读取和写入 AWS Glue 表。这些表是使用 CloudFormation 模板定义的，并将数据存储为 P...

amazon-s3 database-migration aws-glue parquet pyspark-schema

回答 1 投票 0

Spark读取Json数据时如何将datetime字符串改为timestamp[us]

我有一些以 JSON 格式存储的数据，如下所示： { “id”：1， "时间":"2023-01-01 12:34:56" } 我还有一个具有相同列的 Apache Hudi 表。 Hudi 的架构

apache-spark pyspark apache-spark-sql parquet apache-hudi

回答 1 投票 0

如何使用 pyarrow 15.0.0 预索引 parquet 数据集？

我有一个存储在 Azure 存储容器中的镶木地板数据集。 parquet 文件已分区，所有文件都具有如下路径：经验=AB1234/ 日期=2024-02-01/ 速度=100/ ...

python parquet pyarrow apache-arrow

回答 1 投票 0

如何将数据从Python函数流式传输到镶木地板文件？

我有一个 python 文件，它对文件列表执行一些操作。生成的数据帧约为 6 GB，因此我需要使用数据库或使用 parquet 对其进行压缩。问题是，数据被生成了......

python streaming parquet python-polars

回答 1 投票 0

从命令行检查 S3 中的 Parquet

我可以使用以下命令下载单个 snappy.parquet 分区文件： aws s3 cp s3://bucket/my-data.parquet/my-data-0000.snappy.parquet ./my-data-0000.snappy.parquet 然后使用：镶木地板工具头我的数据...

amazon-s3 parquet

回答 3 投票 0

WHERE 子句是否被推入带有 QUALIFY 子句的 VIEWS 中？

如果 VIEW 的定义具有 QUALIFY 子句，则从视图中进行选择时，WHERE 子句是否会被下推，或者是在应用 WHERE 子句之前评估整个视图 SQL？例如。，创建视图

databricks parquet databricks-sql

回答 1 投票 0

在更改分区之前重新读取由 PyArrow fsspec 缓存的 s3 parquet 分区时出现 FileNotFoundError

要复制的事件顺序如下：使用 pandas.read_parquet （底层是 pyarrow.dataset）读取 s3 parquet 分区。将另一个文件添加到该分区中。阅读...

amazon-s3 parquet python-3.8 pyarrow fsspec

回答 1 投票 0

加入 1.4 亿条记录的 CRM 时出现内存不足错误 - 使用 DuckDB 和 R

我没有找到问题的确切解决方案，必须从不同来源收集信息才能找到可行的解决方案。我在这里记录（通过回答）以供参考。问题站...

r dplyr out-of-memory parquet duckdb

回答 1 投票 0

为什么Polars流媒体引擎这么慢？

我有一个镶木地板文件目录，我希望对所有这些文件应用一个函数并取平均值。起初我以为 Polars 会凭借 LazyFrame 和流媒体功能在这方面表现出色......

python dataframe parquet python-polars

回答 1 投票 0

使用 Parquet.Net 读取 parquet 文件错误“目标太短”

在这个项目中，有一个 C# API，我需要构建一个简单的程序来读取 parquet 文件并以 json 形式返回它。通常我使用 python，在 python 中读取 parquet 文件很简单......

c# parquet parquet.net

回答 1 投票 0

在 R 中使用 parquet 处理大数据集

目前我正在 R 计算机中处理巨大的数据集（9000 万行和 30 列），但是我当时只需要分析几列和行，并且我需要以有效的方式进行处理。 .

r database parquet

回答 1 投票 0

对 PyArrow Parquet 文件进行分区并将其写入数据集

我有一个 PyArrow Parquet 文件太大，无法在内存中处理。因为数据可以很容易地划分到不同的分片中，所以我想手动对其进行划分并创建一个 PyArrow 数据集...

parquet pyarrow

回答 1 投票 0

OSError：无法反序列化thrift：没有更多数据可供读取。反序列化页眉失败

我正在从事件中心获取数据并将其上传到带有 blob_type AppendBlob 的 blob，它会正确附加，但是当我下载并尝试读取该镶木地板文件时，它会显示此错误 OSError:

python azure azure-blob-storage parquet

回答 1 投票 0

java.lang.NoSuchFieldError：尝试运行 Apache Arrow 示例程序时，chunkSize 可见

当尝试运行 Apache arrow 网站上的第一个 Java 示例程序时，在 this.chunkSize = this.directArenas[0].chunkSize; 行中可以看到 No such field error for chunkSize; 完整的电子...

java parquet apache-arrow

回答 1 投票 0

如何通过模式自动检测将 Parquet/AVRO 加载到 Snowflake 中的多个列中？

当尝试将 Parquet/AVRO 文件加载到 Snowflake 表中时，出现错误： PARQUET 文件格式可以生成一且仅一列类型变体或对象或数组。如果您愿意，请使用 CSV 文件格式

snowflake-cloud-data-platform avro parquet

回答 2 投票 0

parquet 相关问题

最新问题