parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

如何追加到镶木地板文件以及它如何影响分区?

镶木地板是否允许定期附加到镶木地板文件? 追加与分区(如果有的话)有何关系?例如,如果我能够识别基数和分区较低的列...

回答 3 投票 0

在 PySpark 中保留 parquet 文件名

我正在使用 Spark 读取一个包含 2 个分区的镶木地板文件,以便应用一些处理,让我们以这个例子为例 ├── 用户数据 │ ├── 地区=欧盟 ├── 国家=法国 ├─-

回答 1 投票 0

使用 Polars 读取按日期键分区的最新 S3 parquet 文件

我将镶木地板文件存储在 s3 位置,这些文件按日期键分区。使用 Polars,我需要从最新的日期密钥文件夹中读取镶木地板文件。这是我的 s3 结构的示例:

回答 1 投票 0

在 pyspark 中处理镶木地板文件时保存时出现错误

我正在使用这样的 csv 文件进行处理 df = Spark.read.csv(路径 = '/mycsv.csv', header = True) 然后保存到数据库 %sql 如果 MY_DB 不存在则创建数据库 和 df.write.saveAsTable("我的...

回答 1 投票 0

数据库结构/文件格式可持久保存 100TB 表并支持在 Spark SQL 中使用谓词进行高效数据跳过

我正在优化 Spark SQL ETL,以频繁地从 S3 上的 1000 亿行、100TB parquet 格式表“event_100B”中选择 0.1% 的数据。 表 event_100B 包含唯一键列 EventId (32...

回答 1 投票 0

parquet StreamReader 为几列提供空白值,并为另一列提供正确值?

这就是我使用文档中给出的示例填充镶木地板文件的方式: 共有三列 - 日、月和年 箭头::Int8Builder int8builder; int8_t days_raw[15] = {1, 12, 17,...

回答 1 投票 0

pandas.to_parquet pyarrow.lib.ArrowInvalid:无法转换 Timedelta

我有一个巨大的长格式多索引数据框。只有一个“值”列。 “value”中的某些条目的类型为 pd.Timedelta。 我在尝试保存该数据时遇到错误...

回答 1 投票 0

多个 parquet 文件具有 1-2 列的不同数据类型

我正在尝试使用 Pyspark 将不同的镶木地板文件读入一个数据帧,但它给了我错误,因为多个镶木地板文件中的某些列具有不同数据类型的列。喜欢

回答 3 投票 0

使用 S3Cluster 函数而不是 S3 读取镶木地板时发生 Clickhouse 错误

我正在使用 Google Cloud Storage parquets 将数据从 BigQuery 传输到 Clickhouse。我使用 BQ 端的 EXPORT DATA 命令导出到镶木地板,如下所示(只是隐藏变量值,脚本 b...

回答 1 投票 0

Pyarrow 模式定义

我正在尝试从 mongoDB 记录创建一个 parquet 文件,为了做到这一点,我首先创建了一个模式,如下所示 将 pyarrow 导入为 pa 将 pyarrow.parquet 导入为 pq USER = pa.schema([ 爸爸...

回答 2 投票 0

Power Query 编辑器 - 导入 .Parquet 文件

如何使用 Excel 的 Power Query 编辑器正确转换导入的 .parquet 文件? Excel 中有可用的驱动程序吗?

回答 2 投票 0

将 Flink DataStream 写入 Iceberg 表:NoSuchMethodError: org.apache.parquet.schema.Types$PrimitiveBuilder.as

我尝试将flink数据流写入冰山表,如下所示: val kafkaStream = new KafkaDataSource(参数, new PacketSchema).getStream(env) val dataStream = kafkaStream.flatMap(new NullPacket...

回答 1 投票 0

使用 pyspark 在 s3 中准备镶木地板时如何推断架构

使用spark.read.parquet读取s3中保存的parquet文件时,它会自动更改一些数据类型。例如字符串到整数。 如何禁用此功能并保留所有原始数据类型

回答 1 投票 0

Apache Parquet 文件应使用什么 MIME 媒体类型(内容类型)?

背景:Apache Parquet 是一种开源、面向列的数据文件格式,专为高效数据存储和检索而设计。它提供高效的数据压缩和编码方案,...

回答 1 投票 0

将 HDF5 转换为 Parquet 而不加载到内存中

我有一个以 HDF5 格式存储的大型数据集(~600 GB)。由于它太大而无法放入内存,我想将其转换为 Parquet 格式并使用 pySpark 执行一些基本的数据预处理(

回答 2 投票 0

如何对生命周期相关的两个对象进行装箱?

我正在尝试使用 parquet 库在函数中创建一个记录迭代器对象,该对象可以使用我自己的称为 RecordIterator 的特征进行迭代。它看起来像这样: fn 等等(数据集信息:

回答 1 投票 0

Spark 无法读取 AvroParquetWriter 写入的 Parquet 文件中的 DECIMAL 列

我有一些使用 AvroParquetWriter(来自 Kafka Connect S3 连接器)编写的 Parquet 文件。 文件 aseg_lat 中的一列具有架构 DECIMAL(9, 7)。 我可以很好地阅读该专栏

回答 2 投票 0

pymongo 未加载数据库的问题

我如何使用 pymongo 将多个映射数据集加载到 mongodb 我的程序正在运行,但没有加载任何内容。我运行了它,我可以单独使用 parquet 和 csv 来完成此操作,但它不起作用......

回答 1 投票 0

在 LazyFrame 上使用 py-polars sink_parquet 方法时出现问题

在 LazyFrame 上使用 sink_parquet 时出现以下错误。早些时候,我在 scan_parquet() 的输出上使用 .collect() 将结果转换为 DataFrame,但不幸的是......

回答 1 投票 0

使用 pyspark 从 s3 缓慢读取 500k 小 parquet 文件

我一直在开发一个转换系统,其源是存储在 s3 中的大量小 parquet 文件(~150 KB)。当我尝试使用 Spark.read.par 在 pyspark 作业中读取这些文件时...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.