parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

Kafka Connect:读取 JSON 序列化的 Kafka 消息,转换为 Parquet 格式并保存在 S3 中

我需要从 Kafka 主题读取 JSON 序列化消息,将它们转换为 Parquet 并保留在 S3 中。 背景 官方 S3-Sink-Connector 支持 Parquet 输出格式,但是: 你

回答 2 投票 0

Parquet文件覆盖压缩优化时如何保证Spark查询的原子性和数据完整性?

我有一个 Spark 设置,其中存在包含原始 Parquet 文件的分区,并且查询正在这些分区上主动运行。 我正在运行后台作业来优化这些 Parquet 文件以获得更好的效果

回答 1 投票 0

“类 java.time.LocalDate 无法转换为类 java.lang.Number”,在 Avro 中保存时,逻辑类型为日期,类型为 int

我正在尝试在 parquet 输出中保存 Avro 中存在的具有日期逻辑类型的字段(它在使用 int 作为数据类型保存时有效,但在尝试保存为日期逻辑类型时给出错误...

回答 2 投票 0

Apache Avro 不会将 BigDecimal 打印到 parquet 文件中 错误:java.math.BigDecimal 无法转换为 java.nio.ByteBuffer

我需要使用Java8中的apache-avro库创建镶木地板文件。使用 Maven 生成资源从“.avsc”文件自动创建的 POJO。但我在 BigDecimal 方面遇到了麻烦...

回答 1 投票 0

以镶木地板文件格式从本地复制到 Blob 时,ADF 中出现内存不足错误

我在本地 SQL 中有大约 10M 条记录,我正在尝试使用集成运行时以 parquet 文件格式将其传输到我的 Azure Blob 存储。 对于 2M 记录,它正在传输,无需我...

回答 2 投票 0

DuckDB 将 hive 分区插入 parquet 文件中

我有按 user_id 和 report_date 分区的 jsonl 文件。我将这些 jsonl 文件转换为 parquet 文件,并使用 DuckDB 中的以下命令将它们保存在同一文件夹中 jsonl_file_p...

回答 1 投票 0

当 FIXED_LEN_BYTE_ARRAY 数据类型用于固定长度字节数组列时,为什么 parquet 文件会变大?

当尝试将数据集存储在 parquet 文件中以将其上传到 HuggingFace 时,我遇到了一个奇怪的现象:将 50 字节数组存储为列时,输入

回答 1 投票 0

无法将 blob 发送到 Azure - 缺少 HTTP 标头异常

我正在尝试将 parquet 文件上传到 Azure,但它不断向我显示一条错误消息,指出它缺少必需的 HTTP 标头。 在我提供的示例中,我只是尝试了

回答 1 投票 0

如何使用 Firehose 将流数据转换为镶木地板,为流数据创建粘合表模式?

我需要使用 Kinesis Data Stream 和 Firehose 流将数据从 DynamoDB 提取到 S3,并将它们转换为镶木地板。 我在 Firehose Str 中设置镶木地板转换时遇到问题...

回答 1 投票 0

如何使用 ChoParquetWriter 将包含 blob/clob/nclob 列的 DataTable 写入 parquet 文件

我想要将本地 Oracle 数据库表的副本保存在 parquet 文件中。该数据库中有许多不同的表和所有者,因此我决定使用 DataTable 来使此过程如下

回答 1 投票 0

如何读取使用 C++ apache-arrow 包快速压缩的 parquet 文件?

如果“b.parquet”尚未压缩,我使用以下代码成功读取镶木地板文件。 #包括 #包括 #包括 如果“b.parquet”尚未压缩,我使用以下代码成功读取 parquet 文件。 #include <iostream> #include <arrow/api.h> #include <arrow/io/api.h> #include <arrow/ipc/reader.h> #include <arrow/util/logging.h> #include <arrow/ipc/api.h> #include <parquet/arrow/reader.h> #include <parquet/arrow/writer.h> arrow::Status RunMain() { auto pool = arrow::default_memory_pool(); std::shared_ptr<arrow::io::ReadableFile> file; ARROW_ASSIGN_OR_RAISE(file, arrow::io::ReadableFile::Open("b.parquet")); std::unique_ptr<parquet::arrow::FileReader> reader; PARQUET_THROW_NOT_OK(parquet::arrow::OpenFile(file, arrow::default_memory_pool(), &reader)); std::shared_ptr<arrow::Table> parquet_table; PARQUET_THROW_NOT_OK(reader->ReadTable(&parquet_table)); std::cout << "Table Data:\n"; std::cout << parquet_table->ToString() << std::endl; return arrow::Status::OK(); } int main() { arrow::Status st = RunMain(); if (!st.ok()) { std::cerr << st << std::endl; return 1; } return 0; } 但是,当我将“b.parquet”替换为压缩包时。控制台会显示乱码,如: 顺便说一句,“b.parquet”实际上是由以下Python代码组成的。并且函数“pandas.dataframe.to_parquet”似乎默认使用快速压缩。 b = pd.DataFrame([[1,2,3,4],[2,2,3,4],[4,5,6,7],[9,10,11,101]]) b.to_parquet('b.parquet') 如果我稍微改变一下上面的Python代码,比如: b = pd.DataFrame([[1,2,3,4],[2,2,3,4],[4,5,6,7],[9,10,11,101]]) b.to_parquet('b.parquet', compression=None) 然后,C++ 代码就可以工作了。 所以,我的问题是:如果我有很多已经压缩的 parquet 文件,我如何读取它们? 您应该在 parquet 代码周围添加一个 try/catch 块并记录抛出的异常。我猜问题是您所链接的 arrow 版本没有链接的快速压缩库。

回答 1 投票 0

我在 flink 中面临 ParquetFileWriting n hdfs 的问题,其中 parquet 文件大小约为 382 KB 。我想要 MB 格式的镶木地板文件

AvroParquetWriter.builder(文件路径) .withSchema(模式) .withCompressionCodec(CompressionCodecName.SNAPPY) .withConf(配置) .withDataModel(GenericData.get()) .

回答 1 投票 0

PermissionError:从 aws s3 读取文件时禁止

我正在 python 和 jupyter 笔记本中工作,我正在尝试从 aws s3bucket 读取 parquet 文件,并将它们转换为单个 pandas 数据帧。 存储桶和文件夹的排列方式如下:

回答 2 投票 0

从 String 到 Varchar 的红移谱类型转换

当我使用 Glue 爬虫从 S3 扫描数据时,我得到以下架构: {id:整数,值:字符串} 这是因为 Spark 以 String 类型而不是 varchar 类型写回数据。虽然有一个

回答 1 投票 0

Spark 在读取时是否使用 repartition() 来推断 parquet 文件的分区是否持续存在?

我有两个数据集存储为镶木地板文件,其架构如下: 数据集1: ID 第 1 列 列2 1 v1 v3 2 v2 v4 数据集2: ID 第 3 列 第 4 列 1 v5 v7 2 v6 v8 我想使用 pysp 连接两个数据集...

回答 1 投票 0

如何将 kdb 表持久保存到压缩镶木地板中?

我正在尝试以压缩的 apache parquet 格式存储/保留 kdb 表。 我最初的计划基本上是使用 embedPy 将 fastparquet 或 pyarrow.parquet 转换为可在 q 内使用。 ...

回答 1 投票 0

Python 大规模数据格式,用于在 AWS 上分布式写入、读取和存储

我正在尝试找出使用传统 Python 数据格式在 AWS 上写入、读取和存储数据的最佳方法。从我的各种谷歌搜索中,我无法找到 Big O notat 的最终列表......

回答 1 投票 0

如何使用 parquet 在 Spark 中读取和写入同一文件?

我试图从spark中的parquet文件中读取数据,与另一个rdd进行联合,然后将结果写入我读取的同一个文件中(基本上是覆盖),这会引发以下错误:

回答 6 投票 0

如何在Azure中以parquet格式存储行/列数据?

我需要对4-5个字段的数据进行CRUD。数据记录/行的数量可以是数百万。如何将其存储为 Parquet/delta parquet 格式? Azure 中是否有一个存储引擎可供我使用...

回答 1 投票 0

用于在 NodeJS 中读取镶木地板的包(2024)

在 NodeJS 中创建一个 lambda,可以将 parquet(版本 2.0)文件解析为 JSON 数组。我尝试过以下库,但由于各种原因导致结果失败: 镶木地板,镶木地板,

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.