parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

Write pyspark binary column to S3 pdf/doc/xls files (AWS glue job)

从 pyspark 数据帧将 pdf/doc/xls 文件写入 S3 的有效方法是什么，该数据帧将数据保存为镶木地板文件中的 BinaryType 数组？输入数据框的架构如下所示：来自

python pyspark boto3 aws-glue parquet

回答 0 投票 0

我在节点中有一个表（可以说是一个对象数组，[{col1: abc, col2: xyz}, {col1:cba, col2: zyx}, ...]）我想把它作为一个活泼的压缩镶木地板文件放入 s3 我唯一的选择是 duckdb 吗？ ...

node.js parquet snappy

回答 0 投票 0

Glue 动态框架未从 s3 存储桶中填充

我有一个胶水工作不起作用，因为动态框架不是从 s3 中的镶木地板填充的。我已经直接指向了一个里面有数据的对象，但是动态框架还是b...

dataframe amazon-s3 pyspark aws-glue parquet

回答 1 投票 0

查询存储为 Parquet 格式的嵌套模式时出现 AWS Athena 错误

我正在尝试使用 AWS Athena 从 S3 查询数据，其中数据以 Parquet 格式存储。具体来说，我正在尝试创建一个嵌套模式来存储复杂对象的行，生成我们...

amazon-s3 hive parquet amazon-athena parquetjs

回答 0 投票 0

从 AWS Glue 中的动态框架覆盖镶木地板文件

我使用动态框架在 S3 中编写镶木地板文件，但如果文件已经存在，我的程序会附加一个新文件而不是替换它。我用的句子是这样的： glueContext.write_dynamic_frame.

amazon-web-services parquet aws-glue

回答 3 投票 0

在分区模式下使用 s3a staging committer 时，我可以控制输出的 parquet 文件名吗

问题我可以使用下面的配置载入 s3 暂存提交器，并且性能得到了很大提高。 sparkSessionBuilder.config("spark.sql.sources.commitProtocolClass"...

amazon-web-services apache-spark amazon-s3 parquet

回答 0 投票 0

如何使用嵌入式结构定义 AWS Glue 表结构

要将 Kinesis Firehose 中的格式从 json 转换为 parquet，您必须在 AWS Glue 中定义表结构。无论出于何种疯狂的原因，它都使用自己的自定义格式，其中顶级字段可以定义...

amazon-web-services aws-glue parquet amazon-kinesis-firehose

回答 1 投票 0

在 NodeJS lambda 中将 JSON 转换为 Parquet 以写入 S3

我正在运行一个使用 NodeJS 作为语言的 AWS Lambda 函数。这个 lambda 接收一些 JSON 输入，我需要在将其写入 S3 之前将其转换为 Parquet 格式。目前，我正在使用

node.js amazon-s3 aws-lambda parquet parquetjs

回答 2 投票 0

将文件从 csv 转换为 parquet 生成原始文件的 sha256 或 md5 哈希，将 parquet 文件转换回 csv 并生成 - 转换后的文件

将熊猫导入为 pd 将 pyarrow 导入为 pa 将 pyarrow.parquet 导入为 pq 导入哈希库 df = pd.read_csv('me.csv') 表 = pa.Table.from_pandas(df) pq.write_table(table, 'your_file.parquet') 与...

python pandas parquet pyarrow hashlib

回答 0 投票 0

bq 在目标表中加载带有额外列的镶木地板文件

我有一个需要加载到目标表的镶木地板文件。现在目标表有一个额外的列，例如 SEQ_NO 是否可以在 bq 加载命令中插入到 SEQ_NO 一个默认值...

google-cloud-platform parquet bq-load

回答 1 投票 0

将 parquet 文件写入 s3 NoSuchMethodError 时：void org.apache.hadoop.util.SemaphoredDelegatingExecutor

当我尝试将数据帧作为镶木地板写入 s3 时，我总是会收到如下错误。在s3 bucket中，每次都会自动生成一个空文件夹，但是没有parquet文件。我怎么能

apache-spark amazon-s3 hadoop parquet

回答 4 投票 0

Archival using Parquet-Dask or Snowflake [关闭]

我们需要创建一个数据存储来存储每天创建的多个数据文件（具有不同的列）；商店应以压缩格式保存它们并...

snowflake-cloud-data-platform dask parquet software-design pyarrow

回答 0 投票 0

数据存储设计建议

我们需要创建一个数据存储来存储每天创建的多个数据文件（具有不同的列）；商店应以压缩格式保存它们并...

snowflake-cloud-data-platform dask parquet archive pyarrow

回答 0 投票 0

Jupyter notebook 不会读取 parquet：“ModuleNotFoundError”

我正在尝试将一些大型（760megs）数据帧读入 jupyter notebook，并且无论 w...

python pandas jupyter-notebook parquet pyarrow

回答 1 投票 0

从镶木地板文件中读取 C++ 代码中的日期时间

我正在Windows平台上的c ++程序中读取镶木地板文件。 .parquet 文件有一列为“时间戳”，数据类似于“2021-04-06 16:48:04.614365+00:00”。礼物...

c++ parquet arrow-functions

回答 0 投票 0

在 AWS Glue 中读取镶木地板文件

我是一名 AWS Glue 新手，正在尝试读取我在 S3 中拥有的一些镶木地板对象，但我因 ClassNotFoundException 而失败。到目前为止，这是我基于 Glue 的最少文档所做的尝试： impo...

amazon-web-services parquet aws-glue

回答 2 投票 0

将 Parquet 转换为 CSV

如何在没有 Spark 的情况下从本地文件系统（例如 python、某些库等）将 Parquet 转换为 CSV？（试图找到尽可能简单和简约的解决方案，因为需要自动化

python csv command-line parquet

回答 3 投票 0

在 Glue/Athena 中重新映射列标题的最简单方法？

Data 具有 _col_0、_col_1 等标题。我有一个示例数据文件，其中包含正确的列标题。但是，所有数据都在约 250 个文件中的 snappy/parquet 中。最简单的方法是什么...

amazon-web-services aws-glue parquet amazon-athena snappy

回答 2 投票 0

用带过滤器的 pandas / pyarrow 读取分区镶木地板似乎列出了 AWS S3 上数据集下的所有文件

我在 AWS S3 上有一个分区镶木地板数据集，如下所示： # 生成.py 将熊猫导入为 pd df = pd.DataFrame({ “富”：[1, 1, 1, 2, 2, 2], “酒吧”：列表（“abcabc”）， ...

pandas amazon-web-services amazon-s3 parquet pyarrow

回答 0 投票 0

探索加载到雪花内部阶段的数据

数据被加载到雪花中名为 MY_CH07_STAGE 的内部阶段。为了探索数据，我们有以下查询。 t 是什么意思，t.$1、t.$2、t.$3、t.$4、t.$5 和 t.$6 是什么意思？选择...

sql csv snowflake-cloud-data-platform parquet stage

回答 1 投票 0

parquet 相关问题

最新问题