parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

当 FIXED_LEN_BYTE_ARRAY 数据类型用于固定长度字节数组列时，为什么 parquet 文件会变大？

当尝试将数据集存储在 parquet 文件中以将其上传到 HuggingFace 时，我遇到了一个奇怪的现象：将 50 字节数组存储为列时，输入

python serialization encoding format parquet

回答 1 投票 0

无法将 blob 发送到 Azure - 缺少 HTTP 标头异常

我正在尝试将 parquet 文件上传到 Azure，但它不断向我显示一条错误消息，指出它缺少必需的 HTTP 标头。在我提供的示例中，我只是尝试了

c# azure azure-blob-storage parquet

回答 1 投票 0

如何使用 Firehose 将流数据转换为镶木地板，为流数据创建粘合表模式？

我需要使用 Kinesis Data Stream 和 Firehose 流将数据从 DynamoDB 提取到 S3，并将它们转换为镶木地板。我在 Firehose Str 中设置镶木地板转换时遇到问题...

amazon-web-services amazon-dynamodb aws-glue parquet amazon-kinesis-firehose

回答 1 投票 0

如何使用 ChoParquetWriter 将包含 blob/clob/nclob 列的 DataTable 写入 parquet 文件

我想要将本地 Oracle 数据库表的副本保存在 parquet 文件中。该数据库中有许多不同的表和所有者，因此我决定使用 DataTable 来使此过程如下

c# oracle parquet lob choetl

回答 1 投票 0

如何读取使用 C++ apache-arrow 包快速压缩的 parquet 文件？

如果“b.parquet”尚未压缩，我使用以下代码成功读取镶木地板文件。 #包括 #包括 #包括如果“b.parquet”尚未压缩，我使用以下代码成功读取 parquet 文件。 #include <iostream> #include <arrow/api.h> #include <arrow/io/api.h> #include <arrow/ipc/reader.h> #include <arrow/util/logging.h> #include <arrow/ipc/api.h> #include <parquet/arrow/reader.h> #include <parquet/arrow/writer.h> arrow::Status RunMain() { auto pool = arrow::default_memory_pool(); std::shared_ptr<arrow::io::ReadableFile> file; ARROW_ASSIGN_OR_RAISE(file, arrow::io::ReadableFile::Open("b.parquet")); std::unique_ptr<parquet::arrow::FileReader> reader; PARQUET_THROW_NOT_OK(parquet::arrow::OpenFile(file, arrow::default_memory_pool(), &reader)); std::shared_ptr<arrow::Table> parquet_table; PARQUET_THROW_NOT_OK(reader->ReadTable(&parquet_table)); std::cout << "Table Data:\n"; std::cout << parquet_table->ToString() << std::endl; return arrow::Status::OK(); } int main() { arrow::Status st = RunMain(); if (!st.ok()) { std::cerr << st << std::endl; return 1; } return 0; } 但是，当我将“b.parquet”替换为压缩包时。控制台会显示乱码，如：顺便说一句，“b.parquet”实际上是由以下Python代码组成的。并且函数“pandas.dataframe.to_parquet”似乎默认使用快速压缩。 b = pd.DataFrame([[1,2,3,4],[2,2,3,4],[4,5,6,7],[9,10,11,101]]) b.to_parquet('b.parquet') 如果我稍微改变一下上面的Python代码，比如： b = pd.DataFrame([[1,2,3,4],[2,2,3,4],[4,5,6,7],[9,10,11,101]]) b.to_parquet('b.parquet', compression=None) 然后，C++ 代码就可以工作了。所以，我的问题是：如果我有很多已经压缩的 parquet 文件，我如何读取它们？您应该在 parquet 代码周围添加一个 try/catch 块并记录抛出的异常。我猜问题是您所链接的 arrow 版本没有链接的快速压缩库。

c++ parquet apache-arrow snappy

回答 1 投票 0

我在 flink 中面临 ParquetFileWriting n hdfs 的问题，其中 parquet 文件大小约为 382 KB 。我想要 MB 格式的镶木地板文件

AvroParquetWriter.builder（文件路径） .withSchema(模式) .withCompressionCodec(CompressionCodecName.SNAPPY) .withConf(配置) .withDataModel(GenericData.get()) .

apache-flink parquet

回答 1 投票 0

PermissionError：从 aws s3 读取文件时禁止

我正在 python 和 jupyter 笔记本中工作，我正在尝试从 aws s3bucket 读取 parquet 文件，并将它们转换为单个 pandas 数据帧。存储桶和文件夹的排列方式如下：

python pandas amazon-s3 jupyter-notebook parquet

回答 2 投票 0

从 String 到 Varchar 的红移谱类型转换

当我使用 Glue 爬虫从 S3 扫描数据时，我得到以下架构： {id：整数，值：字符串} 这是因为 Spark 以 String 类型而不是 varchar 类型写回数据。虽然有一个

pyspark amazon-redshift aws-glue parquet amazon-redshift-spectrum

回答 1 投票 0

Spark 在读取时是否使用 repartition() 来推断 parquet 文件的分区是否持续存在？

我有两个数据集存储为镶木地板文件，其架构如下：数据集1： ID 第 1 列列2 1 v1 v3 2 v2 v4 数据集2： ID 第 3 列第 4 列 1 v5 v7 2 v6 v8 我想使用 pysp 连接两个数据集...

apache-spark pyspark parquet partitioning

回答 1 投票 0

如何将 kdb 表持久保存到压缩镶木地板中？

我正在尝试以压缩的 apache parquet 格式存储/保留 kdb 表。我最初的计划基本上是使用 embedPy 将 fastparquet 或 pyarrow.parquet 转换为可在 q 内使用。 ...

parquet kdb pyarrow fastparquet

回答 1 投票 0

Python 大规模数据格式，用于在 AWS 上分布式写入、读取和存储

我正在尝试找出使用传统 Python 数据格式在 AWS 上写入、读取和存储数据的最佳方法。从我的各种谷歌搜索中，我无法找到 Big O notat 的最终列表......

python numpy csv parquet hdf5

回答 1 投票 0

如何使用 parquet 在 Spark 中读取和写入同一文件？

我试图从spark中的parquet文件中读取数据，与另一个rdd进行联合，然后将结果写入我读取的同一个文件中（基本上是覆盖），这会引发以下错误：

apache-spark overwrite parquet

回答 6 投票 0

如何在Azure中以parquet格式存储行/列数据？

我需要对4-5个字段的数据进行CRUD。数据记录/行的数量可以是数百万。如何将其存储为 Parquet/delta parquet 格式？ Azure 中是否有一个存储引擎可供我使用...

database azure azure-storage parquet

回答 1 投票 0

用于在 NodeJS 中读取镶木地板的包（2024）

在 NodeJS 中创建一个 lambda，可以将 parquet（版本 2.0）文件解析为 JSON 数组。我尝试过以下库，但由于各种原因导致结果失败：镶木地板，镶木地板，

node.js lambda parquet duckdb parquetjs

回答 1 投票 0

如何追加到镶木地板文件以及它如何影响分区？

镶木地板是否允许定期附加到镶木地板文件？追加与分区（如果有的话）有何关系？例如，如果我能够识别基数和分区较低的列...

parquet pyarrow fastparquet

回答 3 投票 0

在 PySpark 中保留 parquet 文件名

我正在使用 Spark 读取一个包含 2 个分区的镶木地板文件，以便应用一些处理，让我们以这个例子为例 ├── 用户数据 │ ├── 地区=欧盟 ├── 国家=法国 ├─-

apache-spark pyspark apache-spark-sql databricks parquet

回答 1 投票 0

使用 Polars 读取按日期键分区的最新 S3 parquet 文件

我将镶木地板文件存储在 s3 位置，这些文件按日期键分区。使用 Polars，我需要从最新的日期密钥文件夹中读取镶木地板文件。这是我的 s3 结构的示例：

python-3.x pandas amazon-s3 parquet python-polars

回答 1 投票 0

在 pyspark 中处理镶木地板文件时保存时出现错误

我正在使用这样的 csv 文件进行处理 df = Spark.read.csv(路径 = '/mycsv.csv', header = True) 然后保存到数据库 %sql 如果 MY_DB 不存在则创建数据库和 df.write.saveAsTable("我的...

python pyspark parquet

回答 1 投票 0

数据库结构/文件格式可持久保存 100TB 表并支持在 Spark SQL 中使用谓词进行高效数据跳过

我正在优化 Spark SQL ETL，以频繁地从 S3 上的 1000 亿行、100TB parquet 格式表“event_100B”中选择 0.1% 的数据。表 event_100B 包含唯一键列 EventId (32...

sql filter apache-spark-sql bigdata parquet

回答 1 投票 0

parquet StreamReader 为几列提供空白值，并为另一列提供正确值？

这就是我使用文档中给出的示例填充镶木地板文件的方式：共有三列 - 日、月和年箭头::Int8Builder int8builder; int8_t days_raw[15] = {1, 12, 17,...

parquet apache-arrow

回答 1 投票 0

parquet 相关问题

最新问题