parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

Snowflake:如何在将 parquet 数据文件从 aws s3 加载到雪花表时查找所有错误记录

复制到db.schema.ZDATA_4 来自@stage/load/zdata_4/ file_format=(类型=镶木地板) ON_ERROR=继续 力=真 MATCH_BY_COLUMN_NAME = 不区分大小写 验证模式 =返回所有错误; 同时

回答 1 投票 0

如何惰性地 GroupShuffleSplit parquet 数据框?

我有一个镶木地板数据集,如下所示(我使用的是极坐标,但任何数据框库都可以): df = pl.DataFrame( { “匹配 ID”:[ 1, 1, 1, 2, 2, ...

回答 1 投票 0

使用 DuckDB-Python API 将 Dataframe 作为 Parquet 文件写入 S3 存储桶中

我有一个包含 5 GB 数据的 DuckDB Dataframe,我想将其作为 Parquet 文件写入 S3 Bucket,我看到了 DuckDB 命令,但无法找到相同的 python API,他有任何帮助吗

回答 1 投票 0

将 pyspark 数据帧写入所有分区列中总共特定数量的 parquet 文件中

使用PySpark 2.4.7 我的目标是将 PySpark DataFrame 写入 AWS S3 中特定数量的 parquet 文件。 假设我想将 PySpark DataFrame 写入 10 个 parquet 文件。 这是我的方法 df.

回答 3 投票 0

ClientError:调用ListObjects操作时发生错误(AccessDenied):访问被拒绝

我正在 jupyter 笔记本中使用 python。 我正在尝试从 aws s3 存储桶访问多个 parquet 文件并将它们全部转换为一个 json 文件。我知道我可以访问这些数据,但我是

回答 3 投票 0

将带有 JSONB 的 CSV 文件导入 postgresql 14

我希望从 csv 文件加载下面的两行,第二个值为 JSONB [列名称:详细信息]。 1、"{""fields0"": [""is_enabled""], "...

回答 1 投票 0

Spark:仅当路径存在时才读取文件

我正在尝试读取 scala 中路径序列中存在的文件。下面是示例(伪)代码: val paths = Seq[String] //路径序列 val dataframe = Spark.read.parquet(路径:_*) 现在,我...

回答 6 投票 0

使用python从HDFS获取镶木地板文件

我用windows单集群构建自己的hdfs,从此链接获取参考 然后我已经输入了我的镶木地板文件,但我无法从其他计算机读取该文件。 这是我的 python 代码 导入

回答 1 投票 0

带有列定义的 parquet 文件的 Synapse CETAS 失败

在 Synapse 管道中,我尝试使用我之前(从 Azure SQL 数据库)生成的 parquet 文件中的 CETAS 脚本活动。 源数据库有一些包含 LOB 列的表...

回答 1 投票 0

有没有办法使用带分区的 pandas to_parquet 覆盖现有数据?

我正在使用 pandas 使用带有分区的 to_parquet 函数来编写镶木地板文件。例子: df.to_parquet('gs://bucket/path',partition_cols=['key']) 问题是每次我运行公司时...

回答 3 投票 0

无法使用 DATE 作为 pandas 列的逻辑类型编写镶木地板

我正在尝试编写一个 parquet 文件,其中包含一个日期列,其 parquet 中的逻辑类型为 DATE,物理类型为 INT32。我正在使用 pandas 和 fastparque 编写镶木地板文件...

回答 2 投票 0

我可以存储带有值混合类型的字典列的 Parquet 文件吗?

我正在尝试将 Python Pandas DataFrame 存储为 Parquet 文件,但遇到了一些问题。我的 Pandas DF 的一列包含这样的字典: 将 pandas 导入为 pandas df = pd。

回答 3 投票 0

使用密钥将 Pandas Dataframe 存储到 S3

我们如何使用 parquet 格式的密钥将数据帧存储到 S3?我可以在下面的代码中添加哪些参数? 文件名=文件名+'.parquet' df.to_parquet('s3://路径/'+文件名) 参数...

回答 1 投票 0

如果我显式传递模式,我是否需要在带有 parquet 的 Spark 中使用“mergeSchema”选项?

来自 Spark 文档: 由于模式合并是一个相对昂贵的操作,并且在大多数情况下不是必需的,因此我们从 1.5.0 开始默认关闭它。您可以通过设置启用它...

回答 1 投票 0

apache arrow c++ ParquetFileWriter 页脚和关闭问题

我尝试让我的程序通过 apache arrow 的 StreamWriter 以 parquet 格式写出数据流。但输出文件没有元数据页脚。当尝试使用

回答 1 投票 0

在 S3 中没有看到文件级下推谓词过滤查询 hive 分区表

我在DuckDB-WASM中使用DuckDB。我正在 S3 中的 hive 分区表之上使用 SQL 创建一个视图,如下所示: 创建视图 my_view 或将其替换为 选择 第 1 部分作为第 1 部分 , 第 2 部分作为第 2 部分 ,C...

回答 1 投票 0

如何使用 Polars Python API 查询镶木地板文件?

我有一个 .parquet 文件,并且想使用 Python 按列快速有效地查询该文件。 例如,我可能在该 .parquet 文件中有一个列名称,并且想要取回 f...

回答 1 投票 0

snowflake 卸载到 S3,因为 parquet 没有列名,也没有正确的数据类型

以下命令在 S3 中生成 parquet 文件: 使用数据库沙箱; 使用架构沙箱; 创建或替换文件格式 my_parquet_format 类型 = 镶木地板; 复制到@bla/x_ 从 ( 选择 ...

回答 1 投票 0

日期时间列转换为镶木地板文件时会变形

我正在处理一个csv文件,其中包含一个包含日期的列,但是该列的dtype实际上只是对象,所以我将其更改为日期时间。这部分没有缺陷,数据没有改变...

回答 1 投票 0

Parquet,从具有特定列的所有文件中选择

我需要“选择不同的COLUMN_X” 来自具有“COLUMN_X”的所有镶木地板文件 我尝试将 OPENROWSET 与 sys.tables 和 sys.columns 结合起来 但它失败了“列

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.