parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

从 Spark Dataframe 写入的 Parquet 文件似乎已损坏

我正在使用 Spark 将数据写入 Parquet 文件,并根据 AWS Kinesis 每小时分区以每小时的方式从 AWS Kinesis 读取数据输出。 写作时,我将数据输出按年/

回答 2 投票 0

Spark:从 parquet 读取一个 int 列,长度为

我有一个 parquet 文件,由 Spark 作为外部表读取。 其中一列在 parquet 模式和 Spark 表中都定义为 int。 最近,我发现 int 太小了...

回答 2 投票 0

我无法通过数据类型错误将 df 转换为 parquet

我正在尝试将 pandas 数据帧转换为镶木地板,但收到错误“Exptected bytes,got a 'int' object”,“类型为 object 的列 xxxxxxx 转换失败”) 这张表在

回答 4 投票 0

将行向量写入 Parquet 文件

我知道如何将 Parquet 文件读入 Vec。 外部板条箱镶木地板; 使用 parquet::file::reader::{FileReader, SerializedFileReader}; 使用 std::{fs,sync::Arc}; 使用 parquet::column::writer::

回答 2 投票 0

使用 Javascript 读取 Parquet v2 文件

我已经搜索了节点包管理器(NPM),但似乎找不到也支持版本 2 的工作 Parquet 库。 parquets 是我能找到的唯一可用的解析器,我得到了这个......

回答 1 投票 0

如何查找 Parquet 文件生成时使用的 COMPRESSION_CODEC?

通常在 Impala 中,我们在将数据插入底层文件为 Parquet 格式的表之前使用 COMPRESSION_CODEC。 用于设置 COMPRESSION_CODEC 的命令: 设置压缩_c...

回答 3 投票 0

PySpark 分区镶木地板需要很长时间才能加载,即使使用指定的模式

设置:我有一个包含约 1300 个分区 parquet 文件的文件夹(例如 C:\Project Data\Data-*.parquet),其中 * 是一个计数器,每个文件大小约为 8MB。所有文件都具有相同的架构。 我是茹...

回答 1 投票 0

如何使用 SQL 将 BigQuery 表导出到 parquet 并保留列模式

我正在尝试以 parquet 格式将 BQ 表导出到 GCS。由于大小限制,无法使用 API,因此必须是 SQL 查询。问题是使用 SQL 查询时,parquet 会忽略表列...

回答 1 投票 0

如何定义 Parquet 和/或 Arrow 模式?

是否有一种与语言无关的方式以类似于 Avro 的方式表示 Parquet 或 Arrow 模式?例如,Avro 架构可能如下所示: { “类型”:“记录”, ...

回答 1 投票 0

如何通过 pandas 的 parquet 创建 Athena 桌子?

我从 pandas Dataframe 开始并保存为 parquet 格式,如下所示: 将 pandas 导入为 pd df = pd.DataFrame([ {'abc': 1.231, 'xyz':2, 'jkl': False, 'idx': '第一行', '日期': '2023-12-01'}, ...

回答 1 投票 0

如何在 Power BI 桌面中仅加载选定文件

Power BI Desktop 支持从 ADLS 加载单个镶木地板文件, 现在,我们的进程会将多个镶木地板文件转储到一个文件夹中。该文件夹将包含包含其他文件的子文件夹...

回答 2 投票 0

如何处理 Apache Spark 中不断变化的 parquet 模式

我遇到了一个问题,我将 Parquet 数据作为 S3 中的每日块(以 s3://bucketName/prefix/YYYY/MM/DD/ 的形式),但无法从 AWS EMR Spark 中读取数据不同的日期因为...

回答 4 投票 0

将 BigQuery 重复数据类型转换为 parquet

我有一个 BigQuery 表,其中包含由结构化数据 (RECORD) 组成的 REPEATED 字段,该字段仅由两个键组成:KEY 和 VALUE。它看起来像这样: [{“KEY”:“TESTING_FLAG”,“...

回答 1 投票 0

为什么从 Bigquery 导出 parquet 文件后数据类型从 BIGNUMERIC 转换为 FLOAT32?

我从bigquery导出一张表,遇到一个问题,有一个BIGNUMERIC类型的列,在使用fastparquet导出并在pandas上读取后,该列的数据类型从

回答 1 投票 0

在spark中如何获取镶木地板文件创建的时间戳作为列

在spark中,在从 hdfs 读取文件时,对于每条记录,我想向 df 添加一列,其中包含读取记录的文件的文件创建时间戳。 例如 hdfs具有以下结构 /

回答 1 投票 0

Python:快速将 SQL 字典列表转换为列表字典(从行数据到列数据)

我正在从 SQL 数据库读取和处理面向行的数据,然后将其作为列式数据写入 Parquet 文件。 在 Python 中转换这些数据很简单。问题是数据集是

回答 1 投票 0

Spark 仅保存(写入)镶木地板一个文件

如果我写 dataFrame.write.format("parquet").mode("append").save("temp.parquet") 在 temp.parquet 文件夹中 我得到与行号相同的文件号 我想我还没有完全理解pa...

回答 4 投票 0

使用Spark将一系列json格式的binlog记录合并到Hudi表中的最佳方法是什么?

我有一个Hudi表,和一些json格式的binlog记录。现在我想将这些binlog记录合并到Hudi表中。我们知道,binlog记录需要按顺序执行。什么是最好的...

回答 1 投票 0

如何通过 AWS Redshift Spectrum 读取 parquet 文件中的二进制类型列?

我有一个由clickhouse生成的镶木地板文件,如果使用pyarrow显示其模式: 将 pyarrow.parquet 导入为 pq 数据 = pq.read_table('test.pqt') 打印(数据.架构) 它显示架构是这样的:

回答 1 投票 0

在Python中获取parquet文件的模式

是否有任何 python 库可用于获取 parquet 文件的架构? 目前,我们正在将镶木地板文件加载到 Spark 中的数据帧中,并从数据帧中获取模式以显示...

回答 7 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.