parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

Write pyspark binary column to S3 pdf/doc/xls files (AWS glue job)

从 pyspark 数据帧将 pdf/doc/xls 文件写入 S3 的有效方法是什么,该数据帧将数据保存为镶木地板文件中的 BinaryType 数组? 输入数据框的架构如下所示: 来自

回答 0 投票 0

Node 将表转换为 parquet,并进行快速压缩

我在节点中有一个表(可以说是一个对象数组,[{col1: abc, col2: xyz}, {col1:cba, col2: zyx}, ...]) 我想把它作为一个活泼的压缩镶木地板文件放入 s3 我唯一的选择是 duckdb 吗? ...

回答 0 投票 0

Glue 动态框架未从 s3 存储桶中填充

我有一个胶水工作不起作用,因为动态框架不是从 s3 中的镶木地板填充的。 我已经直接指向了一个里面有数据的对象,但是动态框架还是b...

回答 1 投票 0

查询存储为 Parquet 格式的嵌套模式时出现 AWS Athena 错误

我正在尝试使用 AWS Athena 从 S3 查询数据,其中数据以 Parquet 格式存储。具体来说,我正在尝试创建一个嵌套模式来存储复杂对象的行,生成我们...

回答 0 投票 0

从 AWS Glue 中的动态框架覆盖镶木地板文件

我使用动态框架在 S3 中编写镶木地板文件,但如果文件已经存在,我的程序会附加一个新文件而不是替换它。我用的句子是这样的: glueContext.write_dynamic_frame.

回答 3 投票 0

在分区模式下使用 s3a staging committer 时,我可以控制输出的 parquet 文件名吗

问题 我可以使用下面的配置载入 s3 暂存提交器,并且性能得到了很大提高。 sparkSessionBuilder.config("spark.sql.sources.commitProtocolClass"...

回答 0 投票 0

如何使用嵌入式结构定义 AWS Glue 表结构

要将 Kinesis Firehose 中的格式从 json 转换为 parquet,您必须在 AWS Glue 中定义表结构。 无论出于何种疯狂的原因,它都使用自己的自定义格式,其中顶级字段可以定义...

回答 1 投票 0

在 NodeJS lambda 中将 JSON 转换为 Parquet 以写入 S3

我正在运行一个使用 NodeJS 作为语言的 AWS Lambda 函数。这个 lambda 接收一些 JSON 输入,我需要在将其写入 S3 之前将其转换为 Parquet 格式。 目前,我正在使用

回答 2 投票 0

将文件从 csv 转换为 parquet 生成原始文件的 sha256 或 md5 哈希,将 parquet 文件转换回 csv 并生成 - 转换后的文件

将熊猫导入为 pd 将 pyarrow 导入为 pa 将 pyarrow.parquet 导入为 pq 导入哈希库 df = pd.read_csv('me.csv') 表 = pa.Table.from_pandas(df) pq.write_table(table, 'your_file.parquet') 与...

回答 0 投票 0

bq 在目标表中加载带有额外列的镶木地板文件

我有一个需要加载到目标表的镶木地板文件。现在目标表有一个额外的列,例如 SEQ_NO 是否可以在 bq 加载命令中插入到 SEQ_NO 一个默认值...

回答 1 投票 0

将 parquet 文件写入 s3 NoSuchMethodError 时:void org.apache.hadoop.util.SemaphoredDelegatingExecutor

当我尝试将数据帧作为镶木地板写入 s3 时,我总是会收到如下错误。在s3 bucket中,每次都会自动生成一个空文件夹,但是没有parquet文件。我怎么能

回答 4 投票 0

Archival using Parquet-Dask or Snowflake [关闭]

我们需要创建一个数据存储来存储每天创建的多个数据文件(具有不同的列);商店应以压缩格式保存它们并...

回答 0 投票 0

数据存储设计建议

我们需要创建一个数据存储来存储每天创建的多个数据文件(具有不同的列);商店应以压缩格式保存它们并...

回答 0 投票 0

Jupyter notebook 不会读取 parquet:“ModuleNotFoundError”

我正在尝试将一些大型(760megs)数据帧读入 jupyter notebook,并且无论 w...

回答 1 投票 0

从镶木地板文件中读取 C++ 代码中的日期时间

我正在Windows平台上的c ++程序中读取镶木地板文件。 .parquet 文件有一列为“时间戳”,数据类似于“2021-04-06 16:48:04.614365+00:00”。 礼物...

回答 0 投票 0

在 AWS Glue 中读取镶木地板文件

我是一名 AWS Glue 新手,正在尝试读取我在 S3 中拥有的一些镶木地板对象,但我因 ClassNotFoundException 而失败。到目前为止,这是我基于 Glue 的最少文档所做的尝试: impo...

回答 2 投票 0

将 Parquet 转换为 CSV

如何在没有 Spark 的情况下从本地文件系统(例如 python、某些库等)将 Parquet 转换为 CSV? (试图找到尽可能简单和简约的解决方案,因为需要自动化

回答 3 投票 0

在 Glue/Athena 中重新映射列标题的最简单方法?

Data 具有 _col_0、_col_1 等标题。我有一个示例数据文件,其中包含正确的列标题。 但是,所有数据都在约 250 个文件中的 snappy/parquet 中。 最简单的方法是什么...

回答 2 投票 0

用带过滤器的 pandas / pyarrow 读取分区镶木地板似乎列出了 AWS S3 上数据集下的所有文件

我在 AWS S3 上有一个分区镶木地板数据集,如下所示: # 生成.py 将熊猫导入为 pd df = pd.DataFrame({ “富”:[1, 1, 1, 2, 2, 2], “酒吧”:列表(“abcabc”), ...

回答 0 投票 0

探索加载到雪花内部阶段的数据

数据被加载到雪花中名为 MY_CH07_STAGE 的内部阶段。为了探索数据,我们有以下查询。 t 是什么意思,t.$1、t.$2、t.$3、t.$4、t.$5 和 t.$6 是什么意思? 选择...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.