parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

当 FIXED_LEN_BYTE_ARRAY 数据类型用于固定长度字节数组列时,为什么 parquet 文件会变大?

当尝试将数据集存储在 parquet 文件中以将其上传到 HuggingFace 时,我遇到了一个奇怪的现象:将 50 字节数组存储为列时,输入

回答 1 投票 0

无法将 blob 发送到 Azure - 缺少 HTTP 标头异常

我正在尝试将 parquet 文件上传到 Azure,但它不断向我显示一条错误消息,指出它缺少必需的 HTTP 标头。 在我提供的示例中,我只是尝试了

回答 1 投票 0

如何使用 Firehose 将流数据转换为镶木地板,为流数据创建粘合表模式?

我需要使用 Kinesis Data Stream 和 Firehose 流将数据从 DynamoDB 提取到 S3,并将它们转换为镶木地板。 我在 Firehose Str 中设置镶木地板转换时遇到问题...

回答 1 投票 0

如何使用 ChoParquetWriter 将包含 blob/clob/nclob 列的 DataTable 写入 parquet 文件

我想要将本地 Oracle 数据库表的副本保存在 parquet 文件中。该数据库中有许多不同的表和所有者,因此我决定使用 DataTable 来使此过程如下

回答 1 投票 0

如何读取使用 C++ apache-arrow 包快速压缩的 parquet 文件?

如果“b.parquet”尚未压缩,我使用以下代码成功读取镶木地板文件。 #包括 #包括 #包括 如果“b.parquet”尚未压缩,我使用以下代码成功读取 parquet 文件。 #include <iostream> #include <arrow/api.h> #include <arrow/io/api.h> #include <arrow/ipc/reader.h> #include <arrow/util/logging.h> #include <arrow/ipc/api.h> #include <parquet/arrow/reader.h> #include <parquet/arrow/writer.h> arrow::Status RunMain() { auto pool = arrow::default_memory_pool(); std::shared_ptr<arrow::io::ReadableFile> file; ARROW_ASSIGN_OR_RAISE(file, arrow::io::ReadableFile::Open("b.parquet")); std::unique_ptr<parquet::arrow::FileReader> reader; PARQUET_THROW_NOT_OK(parquet::arrow::OpenFile(file, arrow::default_memory_pool(), &reader)); std::shared_ptr<arrow::Table> parquet_table; PARQUET_THROW_NOT_OK(reader->ReadTable(&parquet_table)); std::cout << "Table Data:\n"; std::cout << parquet_table->ToString() << std::endl; return arrow::Status::OK(); } int main() { arrow::Status st = RunMain(); if (!st.ok()) { std::cerr << st << std::endl; return 1; } return 0; } 但是,当我将“b.parquet”替换为压缩包时。控制台会显示乱码,如: 顺便说一句,“b.parquet”实际上是由以下Python代码组成的。并且函数“pandas.dataframe.to_parquet”似乎默认使用快速压缩。 b = pd.DataFrame([[1,2,3,4],[2,2,3,4],[4,5,6,7],[9,10,11,101]]) b.to_parquet('b.parquet') 如果我稍微改变一下上面的Python代码,比如: b = pd.DataFrame([[1,2,3,4],[2,2,3,4],[4,5,6,7],[9,10,11,101]]) b.to_parquet('b.parquet', compression=None) 然后,C++ 代码就可以工作了。 所以,我的问题是:如果我有很多已经压缩的 parquet 文件,我如何读取它们? 您应该在 parquet 代码周围添加一个 try/catch 块并记录抛出的异常。我猜问题是您所链接的 arrow 版本没有链接的快速压缩库。

回答 1 投票 0

我在 flink 中面临 ParquetFileWriting n hdfs 的问题,其中 parquet 文件大小约为 382 KB 。我想要 MB 格式的镶木地板文件

AvroParquetWriter.builder(文件路径) .withSchema(模式) .withCompressionCodec(CompressionCodecName.SNAPPY) .withConf(配置) .withDataModel(GenericData.get()) .

回答 1 投票 0

PermissionError:从 aws s3 读取文件时禁止

我正在 python 和 jupyter 笔记本中工作,我正在尝试从 aws s3bucket 读取 parquet 文件,并将它们转换为单个 pandas 数据帧。 存储桶和文件夹的排列方式如下:

回答 2 投票 0

从 String 到 Varchar 的红移谱类型转换

当我使用 Glue 爬虫从 S3 扫描数据时,我得到以下架构: {id:整数,值:字符串} 这是因为 Spark 以 String 类型而不是 varchar 类型写回数据。虽然有一个

回答 1 投票 0

Spark 在读取时是否使用 repartition() 来推断 parquet 文件的分区是否持续存在?

我有两个数据集存储为镶木地板文件,其架构如下: 数据集1: ID 第 1 列 列2 1 v1 v3 2 v2 v4 数据集2: ID 第 3 列 第 4 列 1 v5 v7 2 v6 v8 我想使用 pysp 连接两个数据集...

回答 1 投票 0

如何将 kdb 表持久保存到压缩镶木地板中?

我正在尝试以压缩的 apache parquet 格式存储/保留 kdb 表。 我最初的计划基本上是使用 embedPy 将 fastparquet 或 pyarrow.parquet 转换为可在 q 内使用。 ...

回答 1 投票 0

Python 大规模数据格式,用于在 AWS 上分布式写入、读取和存储

我正在尝试找出使用传统 Python 数据格式在 AWS 上写入、读取和存储数据的最佳方法。从我的各种谷歌搜索中,我无法找到 Big O notat 的最终列表......

回答 1 投票 0

如何使用 parquet 在 Spark 中读取和写入同一文件?

我试图从spark中的parquet文件中读取数据,与另一个rdd进行联合,然后将结果写入我读取的同一个文件中(基本上是覆盖),这会引发以下错误:

回答 6 投票 0

如何在Azure中以parquet格式存储行/列数据?

我需要对4-5个字段的数据进行CRUD。数据记录/行的数量可以是数百万。如何将其存储为 Parquet/delta parquet 格式? Azure 中是否有一个存储引擎可供我使用...

回答 1 投票 0

用于在 NodeJS 中读取镶木地板的包(2024)

在 NodeJS 中创建一个 lambda,可以将 parquet(版本 2.0)文件解析为 JSON 数组。我尝试过以下库,但由于各种原因导致结果失败: 镶木地板,镶木地板,

回答 1 投票 0

如何追加到镶木地板文件以及它如何影响分区?

镶木地板是否允许定期附加到镶木地板文件? 追加与分区(如果有的话)有何关系?例如,如果我能够识别基数和分区较低的列...

回答 3 投票 0

在 PySpark 中保留 parquet 文件名

我正在使用 Spark 读取一个包含 2 个分区的镶木地板文件,以便应用一些处理,让我们以这个例子为例 ├── 用户数据 │ ├── 地区=欧盟 ├── 国家=法国 ├─-

回答 1 投票 0

使用 Polars 读取按日期键分区的最新 S3 parquet 文件

我将镶木地板文件存储在 s3 位置,这些文件按日期键分区。使用 Polars,我需要从最新的日期密钥文件夹中读取镶木地板文件。这是我的 s3 结构的示例:

回答 1 投票 0

在 pyspark 中处理镶木地板文件时保存时出现错误

我正在使用这样的 csv 文件进行处理 df = Spark.read.csv(路径 = '/mycsv.csv', header = True) 然后保存到数据库 %sql 如果 MY_DB 不存在则创建数据库 和 df.write.saveAsTable("我的...

回答 1 投票 0

数据库结构/文件格式可持久保存 100TB 表并支持在 Spark SQL 中使用谓词进行高效数据跳过

我正在优化 Spark SQL ETL,以频繁地从 S3 上的 1000 亿行、100TB parquet 格式表“event_100B”中选择 0.1% 的数据。 表 event_100B 包含唯一键列 EventId (32...

回答 1 投票 0

parquet StreamReader 为几列提供空白值,并为另一列提供正确值?

这就是我使用文档中给出的示例填充镶木地板文件的方式: 共有三列 - 日、月和年 箭头::Int8Builder int8builder; int8_t days_raw[15] = {1, 12, 17,...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.