parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

Kafka Connect：读取 JSON 序列化的 Kafka 消息，转换为 Parquet 格式并保存在 S3 中

我需要从 Kafka 主题读取 JSON 序列化消息，将它们转换为 Parquet 并保留在 S3 中。背景官方 S3-Sink-Connector 支持 Parquet 输出格式，但是：你

json apache-kafka parquet apache-kafka-connect s3-kafka-connector

回答 2 投票 0

Parquet文件覆盖压缩优化时如何保证Spark查询的原子性和数据完整性？

我有一个 Spark 设置，其中存在包含原始 Parquet 文件的分区，并且查询正在这些分区上主动运行。我正在运行后台作业来优化这些 Parquet 文件以获得更好的效果

apache-spark hadoop parquet data-lakehouse

回答 1 投票 0

“类 java.time.LocalDate 无法转换为类 java.lang.Number”，在 Avro 中保存时，逻辑类型为日期，类型为 int

我正在尝试在 parquet 输出中保存 Avro 中存在的具有日期逻辑类型的字段（它在使用 int 作为数据类型保存时有效，但在尝试保存为日期逻辑类型时给出错误...

java apache-flink parquet avro

回答 2 投票 0

Apache Avro 不会将 BigDecimal 打印到 parquet 文件中错误：java.math.BigDecimal 无法转换为 java.nio.ByteBuffer

我需要使用Java8中的apache-avro库创建镶木地板文件。使用 Maven 生成资源从“.avsc”文件自动创建的 POJO。但我在 BigDecimal 方面遇到了麻烦...

java parquet avro classcastexception

回答 1 投票 0

以镶木地板文件格式从本地复制到 Blob 时，ADF 中出现内存不足错误

我在本地 SQL 中有大约 10M 条记录，我正在尝试使用集成运行时以 parquet 文件格式将其传输到我的 Azure Blob 存储。对于 2M 记录，它正在传输，无需我...

azure jvm azure-blob-storage parquet azure-data-factory

回答 2 投票 0

DuckDB 将 hive 分区插入 parquet 文件中

我有按 user_id 和 report_date 分区的 jsonl 文件。我将这些 jsonl 文件转换为 parquet 文件，并使用 DuckDB 中的以下命令将它们保存在同一文件夹中 jsonl_file_p...

python hive parquet duckdb

回答 1 投票 0

当 FIXED_LEN_BYTE_ARRAY 数据类型用于固定长度字节数组列时，为什么 parquet 文件会变大？

当尝试将数据集存储在 parquet 文件中以将其上传到 HuggingFace 时，我遇到了一个奇怪的现象：将 50 字节数组存储为列时，输入

python serialization encoding format parquet

回答 1 投票 0

无法将 blob 发送到 Azure - 缺少 HTTP 标头异常

我正在尝试将 parquet 文件上传到 Azure，但它不断向我显示一条错误消息，指出它缺少必需的 HTTP 标头。在我提供的示例中，我只是尝试了

c# azure azure-blob-storage parquet

回答 1 投票 0

如何使用 Firehose 将流数据转换为镶木地板，为流数据创建粘合表模式？

我需要使用 Kinesis Data Stream 和 Firehose 流将数据从 DynamoDB 提取到 S3，并将它们转换为镶木地板。我在 Firehose Str 中设置镶木地板转换时遇到问题...

amazon-web-services amazon-dynamodb aws-glue parquet amazon-kinesis-firehose

回答 1 投票 0

如何使用 ChoParquetWriter 将包含 blob/clob/nclob 列的 DataTable 写入 parquet 文件

我想要将本地 Oracle 数据库表的副本保存在 parquet 文件中。该数据库中有许多不同的表和所有者，因此我决定使用 DataTable 来使此过程如下

c# oracle parquet lob choetl

回答 1 投票 0

如何读取使用 C++ apache-arrow 包快速压缩的 parquet 文件？

如果“b.parquet”尚未压缩，我使用以下代码成功读取镶木地板文件。 #包括 #包括 #包括如果“b.parquet”尚未压缩，我使用以下代码成功读取 parquet 文件。 #include <iostream> #include <arrow/api.h> #include <arrow/io/api.h> #include <arrow/ipc/reader.h> #include <arrow/util/logging.h> #include <arrow/ipc/api.h> #include <parquet/arrow/reader.h> #include <parquet/arrow/writer.h> arrow::Status RunMain() { auto pool = arrow::default_memory_pool(); std::shared_ptr<arrow::io::ReadableFile> file; ARROW_ASSIGN_OR_RAISE(file, arrow::io::ReadableFile::Open("b.parquet")); std::unique_ptr<parquet::arrow::FileReader> reader; PARQUET_THROW_NOT_OK(parquet::arrow::OpenFile(file, arrow::default_memory_pool(), &reader)); std::shared_ptr<arrow::Table> parquet_table; PARQUET_THROW_NOT_OK(reader->ReadTable(&parquet_table)); std::cout << "Table Data:\n"; std::cout << parquet_table->ToString() << std::endl; return arrow::Status::OK(); } int main() { arrow::Status st = RunMain(); if (!st.ok()) { std::cerr << st << std::endl; return 1; } return 0; } 但是，当我将“b.parquet”替换为压缩包时。控制台会显示乱码，如：顺便说一句，“b.parquet”实际上是由以下Python代码组成的。并且函数“pandas.dataframe.to_parquet”似乎默认使用快速压缩。 b = pd.DataFrame([[1,2,3,4],[2,2,3,4],[4,5,6,7],[9,10,11,101]]) b.to_parquet('b.parquet') 如果我稍微改变一下上面的Python代码，比如： b = pd.DataFrame([[1,2,3,4],[2,2,3,4],[4,5,6,7],[9,10,11,101]]) b.to_parquet('b.parquet', compression=None) 然后，C++ 代码就可以工作了。所以，我的问题是：如果我有很多已经压缩的 parquet 文件，我如何读取它们？您应该在 parquet 代码周围添加一个 try/catch 块并记录抛出的异常。我猜问题是您所链接的 arrow 版本没有链接的快速压缩库。

c++ parquet apache-arrow snappy

回答 1 投票 0

我在 flink 中面临 ParquetFileWriting n hdfs 的问题，其中 parquet 文件大小约为 382 KB 。我想要 MB 格式的镶木地板文件

AvroParquetWriter.builder（文件路径） .withSchema(模式) .withCompressionCodec(CompressionCodecName.SNAPPY) .withConf(配置) .withDataModel(GenericData.get()) .

apache-flink parquet

回答 1 投票 0

PermissionError：从 aws s3 读取文件时禁止

我正在 python 和 jupyter 笔记本中工作，我正在尝试从 aws s3bucket 读取 parquet 文件，并将它们转换为单个 pandas 数据帧。存储桶和文件夹的排列方式如下：

python pandas amazon-s3 jupyter-notebook parquet

回答 2 投票 0

从 String 到 Varchar 的红移谱类型转换

当我使用 Glue 爬虫从 S3 扫描数据时，我得到以下架构： {id：整数，值：字符串} 这是因为 Spark 以 String 类型而不是 varchar 类型写回数据。虽然有一个

pyspark amazon-redshift aws-glue parquet amazon-redshift-spectrum

回答 1 投票 0

Spark 在读取时是否使用 repartition() 来推断 parquet 文件的分区是否持续存在？

我有两个数据集存储为镶木地板文件，其架构如下：数据集1： ID 第 1 列列2 1 v1 v3 2 v2 v4 数据集2： ID 第 3 列第 4 列 1 v5 v7 2 v6 v8 我想使用 pysp 连接两个数据集...

apache-spark pyspark parquet partitioning

回答 1 投票 0

如何将 kdb 表持久保存到压缩镶木地板中？

我正在尝试以压缩的 apache parquet 格式存储/保留 kdb 表。我最初的计划基本上是使用 embedPy 将 fastparquet 或 pyarrow.parquet 转换为可在 q 内使用。 ...

parquet kdb pyarrow fastparquet

回答 1 投票 0

Python 大规模数据格式，用于在 AWS 上分布式写入、读取和存储

我正在尝试找出使用传统 Python 数据格式在 AWS 上写入、读取和存储数据的最佳方法。从我的各种谷歌搜索中，我无法找到 Big O notat 的最终列表......

python numpy csv parquet hdf5

回答 1 投票 0

如何使用 parquet 在 Spark 中读取和写入同一文件？

我试图从spark中的parquet文件中读取数据，与另一个rdd进行联合，然后将结果写入我读取的同一个文件中（基本上是覆盖），这会引发以下错误：

apache-spark overwrite parquet

回答 6 投票 0

如何在Azure中以parquet格式存储行/列数据？

我需要对4-5个字段的数据进行CRUD。数据记录/行的数量可以是数百万。如何将其存储为 Parquet/delta parquet 格式？ Azure 中是否有一个存储引擎可供我使用...

database azure azure-storage parquet

回答 1 投票 0

用于在 NodeJS 中读取镶木地板的包（2024）

在 NodeJS 中创建一个 lambda，可以将 parquet（版本 2.0）文件解析为 JSON 数组。我尝试过以下库，但由于各种原因导致结果失败：镶木地板，镶木地板，

node.js lambda parquet duckdb parquetjs

回答 1 投票 0

parquet 相关问题

最新问题