parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

将 Spark parquet 文件从 Snowflake-S3-Stage 上传到 Snowflake 表时出错

编辑:错误来自 Spark 的 _SUCCESS 文件。仅在 SQL 查询中包含 parquet 文件:pattern = '.*parquet' 原来的: Snowflake 可以加载我的多部分镶木地板文件吗?我还有其他插入物...

回答 1 投票 0

DuckDB 用于读取 s3 上的多个 parquet 文件

我正在尝试使用带有 HTTPFS 扩展的 DuckDB 从具有相似密钥的 s3 存储桶中查询大约 1000 个具有相同架构的 parquet 文件。 当我使用 duckdb 查询单个文件时,我能够...

回答 2 投票 0

将 pandas 数据帧写入 s3 AWS 中的镶木地板

我想以镶木地板格式将数据帧写入我的 s3 存储桶中。 我知道如何以 csv 格式编写数据框。但我不知道如何以镶木地板格式编写。 这是 csv 的代码...

回答 3 投票 0

在 Spark 中导入 parquet 文件时出现内存问题

我正在尝试从 Scala Spark (1.5) 中的 parquet 文件查询数据,包括 200 万行的查询(以下代码中的“变体”)。 val sqlContext = new org.apache.spark.sql.SQLContext(sc)

回答 2 投票 0

在 DuckDB 中读取分区的 parquet 文件

背景: DuckDB 允许直接查询 parquet 文件。例如con.execute("从 'Hierarchy.parquet' 中选择 *) Parquet 允许按列值对文件进行分区。当镶木地板...

回答 3 投票 0

Microsoft Fabric-Delta parquet 格式?

我开始学习Microsoft Fabric。根据 Microsoft 文档,数据以 Delta-Parquet 格式存储。我在互联网上搜索,发现两者都是不同的文件格式(增量格式/镶木地板形式...

回答 1 投票 0

无法将 Parquet 数据从 S3 复制到 redshift

我希望能够将 Parquet 数据从 S3 复制到 Redshift。 我已经尝试过下面的代码: -- 第 1 部分:卸载 将 search_path 设置为 my_schema_from; 如果存在则删除表 my_table; 创建表 my_table ...

回答 1 投票 0

保存文件 parquet pyspark 时出现 java.lang.StackOverflowError

我运行了一个胶水作业,在将文件保存到 parquet 时存在错误 java.lang.StackOverflowError 。 我的数据框有超过 40 万行和 250 列。 这是日志: 文件“/tmp/glue-job.py”,

回答 1 投票 0

PySpark:MutableLong 无法转换为 MutableInt(数据帧中没有 long)

我正在尝试使用 boto3 中的 Glue 客户端从 PySpark 中的 Athena 读取配置文件表,并检查它是否为空。为什么 Spark 在将 Int 转换为 Long 时出现错误,知道我没有 Long 类型......

回答 1 投票 0

在 BQ 中创建分区 parquet 文件的外部表时出错

我正在尝试根据 GCS 中找到的分区镶木地板数据在 BigQuery 中创建外部表。我通过运行以下 SQL 语句来完成此操作: 创建或替换外部表 `project-id.poc.

回答 1 投票 0

如何处理不断增长的 _metadata 文件大小并避免 Amazon Redshift Spectrum Parquet Append 中的损坏

上下文: 我们的 Web 应用程序生成大量日志文件,这些文件到达 S3 存储桶中。 存储桶中的文件包含 JSON 字符串,文件格式为 .txt。我们按块处理这些文件...

回答 1 投票 0

排序后 Pyspark 中的 parquet 文件大小出乎意料地大

我有一个 600Mb 的 .CSV 文件,包含 650 万行和 10 列。这些列主要是 id 和 sum,但一列“type”只有 2 个唯一值:“online”和“offline”。 什...

回答 1 投票 0

AWS Glue 数据目录表列的“参数”字段是什么?

Glue 数据目录表的 AWS 文档指出,一列有四个字段: 姓名 类型 评论 参数 前三个很容易理解;这是我的摘录

回答 1 投票 0

二进制格式,允许存储具有不同列、宽度、行的多个 pandas 数据帧

我有大约 200 个 pandas 数据框,每个数据框都有一些独特的列,或者可能完全不同的列。例子: df1 = pd.DataFrame({ '产品': ['苹果', '香蕉', '橙子', '芒...

回答 1 投票 0

主动向镶木地板文件添加分区?

我有一个 Spark 作业,它使用 Apache Hudi 将 parquet 写入我们的 AwS S3 数据湖。我有一个相当大的数据集(大约 20M 行并且还在增长),我想向其中添加一个新分区。是

回答 1 投票 0

pyarrow 写入数据集会删除分区列

我正在尝试使用 pyarrow 来分区和写入镶木地板文件 !pip install pyarrow==13.0.0 将 pyarrow 导入为 pa table = pa.table({'年份': [2020, 2022, 2021, 2022, 2019, 2021], 'n_l...

回答 1 投票 0

如何修复非法 Parquet 类型:INT64 (TIMESTAMP_MICROS) 错误

我每天使用 PySpark 中的 sqlContext.read.parquet 函数来读取 parquet 文件。数据有一个时间戳列。他们将时间戳字段从 2019-08-26T00:00:13.600+0000 更改为 2019-08-

回答 3 投票 0

如何使用 pyarrow 和 parquet 加密 pandas Dataframe

我想使用模块化加密将 pandas 数据帧加密为 parquet 文件。我认为最好的方法是将数据帧转换为 pyarrow 格式,然后将其保存到 parq...

回答 1 投票 0

Pandas:从 parquet 文件中读取前 n 行?

我有一个 parquet 文件,我想将文件中的前 n 行读取到 pandas 数据框中。 我尝试过的: df = pd.read_parquet(path= '文件路径', nrows = 10) 它不起作用并给了我错误:

回答 7 投票 0

在编写器关闭之前,通过 pyarrow 的 ParquetWriter 增量写入的 Parquet 文件是否对其他人可见?

我试图弄清楚在调用 close() 方法之前,其他人是否可以看到由 pyarrow 的 ParquetWriter 增量写入的 parquet 文件。 我尝试过运行一些

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.