parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

ClientError:调用ListObjects操作时发生错误(AccessDenied):访问被拒绝

我正在 jupyter 笔记本中使用 python。 我正在尝试从 aws s3 存储桶访问多个 parquet 文件并将它们全部转换为一个 json 文件。我知道我可以访问这些数据,但我是

回答 3 投票 0

将带有 JSONB 的 CSV 文件导入 postgresql 14

我希望从 csv 文件加载下面的两行,第二个值为 JSONB [列名称:详细信息]。 1、"{""fields0"": [""is_enabled""], "...

回答 1 投票 0

Spark:仅当路径存在时才读取文件

我正在尝试读取 scala 中路径序列中存在的文件。下面是示例(伪)代码: val paths = Seq[String] //路径序列 val dataframe = Spark.read.parquet(路径:_*) 现在,我...

回答 6 投票 0

使用python从HDFS获取镶木地板文件

我用windows单集群构建自己的hdfs,从此链接获取参考 然后我已经输入了我的镶木地板文件,但我无法从其他计算机读取该文件。 这是我的 python 代码 导入

回答 1 投票 0

带有列定义的 parquet 文件的 Synapse CETAS 失败

在 Synapse 管道中,我尝试使用我之前(从 Azure SQL 数据库)生成的 parquet 文件中的 CETAS 脚本活动。 源数据库有一些包含 LOB 列的表...

回答 1 投票 0

有没有办法使用带分区的 pandas to_parquet 覆盖现有数据?

我正在使用 pandas 使用带有分区的 to_parquet 函数来编写镶木地板文件。例子: df.to_parquet('gs://bucket/path',partition_cols=['key']) 问题是每次我运行公司时...

回答 3 投票 0

无法使用 DATE 作为 pandas 列的逻辑类型编写镶木地板

我正在尝试编写一个 parquet 文件,其中包含一个日期列,其 parquet 中的逻辑类型为 DATE,物理类型为 INT32。我正在使用 pandas 和 fastparque 编写镶木地板文件...

回答 2 投票 0

我可以存储带有值混合类型的字典列的 Parquet 文件吗?

我正在尝试将 Python Pandas DataFrame 存储为 Parquet 文件,但遇到了一些问题。我的 Pandas DF 的一列包含这样的字典: 将 pandas 导入为 pandas df = pd。

回答 3 投票 0

使用密钥将 Pandas Dataframe 存储到 S3

我们如何使用 parquet 格式的密钥将数据帧存储到 S3?我可以在下面的代码中添加哪些参数? 文件名=文件名+'.parquet' df.to_parquet('s3://路径/'+文件名) 参数...

回答 1 投票 0

如果我显式传递模式,我是否需要在带有 parquet 的 Spark 中使用“mergeSchema”选项?

来自 Spark 文档: 由于模式合并是一个相对昂贵的操作,并且在大多数情况下不是必需的,因此我们从 1.5.0 开始默认关闭它。您可以通过设置启用它...

回答 1 投票 0

apache arrow c++ ParquetFileWriter 页脚和关闭问题

我尝试让我的程序通过 apache arrow 的 StreamWriter 以 parquet 格式写出数据流。但输出文件没有元数据页脚。当尝试使用

回答 1 投票 0

在 S3 中没有看到文件级下推谓词过滤查询 hive 分区表

我在DuckDB-WASM中使用DuckDB。我正在 S3 中的 hive 分区表之上使用 SQL 创建一个视图,如下所示: 创建视图 my_view 或将其替换为 选择 第 1 部分作为第 1 部分 , 第 2 部分作为第 2 部分 ,C...

回答 1 投票 0

如何使用 Polars Python API 查询镶木地板文件?

我有一个 .parquet 文件,并且想使用 Python 按列快速有效地查询该文件。 例如,我可能在该 .parquet 文件中有一个列名称,并且想要取回 f...

回答 1 投票 0

snowflake 卸载到 S3,因为 parquet 没有列名,也没有正确的数据类型

以下命令在 S3 中生成 parquet 文件: 使用数据库沙箱; 使用架构沙箱; 创建或替换文件格式 my_parquet_format 类型 = 镶木地板; 复制到@bla/x_ 从 ( 选择 ...

回答 1 投票 0

日期时间列转换为镶木地板文件时会变形

我正在处理一个csv文件,其中包含一个包含日期的列,但是该列的dtype实际上只是对象,所以我将其更改为日期时间。这部分没有缺陷,数据没有改变...

回答 1 投票 0

Parquet,从具有特定列的所有文件中选择

我需要“选择不同的COLUMN_X” 来自具有“COLUMN_X”的所有镶木地板文件 我尝试将 OPENROWSET 与 sys.tables 和 sys.columns 结合起来 但它失败了“列

回答 1 投票 0

将 Parquet 导入 Redshift 时出错:可选 int

我正在 Redshift 中创建一个表,如下所示: 从 sqlalchemy.ext.declarative 导入 declarative_base 从 sqlalchemy 导入列 从 sqlalchemy_redshift.dialect 导入 INTEGER、VARCHAR 基数 =

回答 1 投票 0

Pyspark:将数据帧保存到具有特定大小的单个文件的多个 parquet 文件中

如何将 Pyspark 数据帧保存到多个具有特定大小的 parquet 文件? 示例:我的数据帧在 HDFS 上使用 500GB,每个文件为 128MB。我想保存到250个parquet文件,每个文件2GB...

回答 1 投票 0

如何将 parquet 文件从 Azure Blob 读取到 Pandas DataFrame 中?

我需要在本地计算机上将 .parquet 文件读入 Python 中的 Pandas DataFrame 中,而无需下载文件。 parquet 文件存储在具有分层目录结构的 Azure blob 上....

回答 4 投票 0

如何通过parquet文件的结构来了解它们是分区还是独立文件

我在 ADLS gen2 容器中有这样的文件夹/文件结构: 单位/年/月/日/ _成功 _坚定的... _开始... 部分-0000...snappy.parquet 第 0001 部分...snappy.parq...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.