parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

ClientError：调用ListObjects操作时发生错误（AccessDenied）：访问被拒绝

我正在 jupyter 笔记本中使用 python。我正在尝试从 aws s3 存储桶访问多个 parquet 文件并将它们全部转换为一个 json 文件。我知道我可以访问这些数据，但我是

python amazon-s3 jupyter-notebook parquet

回答 3 投票 0

将带有 JSONB 的 CSV 文件导入 postgresql 14

我希望从 csv 文件加载下面的两行，第二个值为 JSONB [列名称：详细信息]。 1、"{""fields0"": [""is_enabled""], "...

postgresql copy parquet loaddata

回答 1 投票 0

Spark：仅当路径存在时才读取文件

我正在尝试读取 scala 中路径序列中存在的文件。下面是示例（伪）代码： val paths = Seq[String] //路径序列 val dataframe = Spark.read.parquet（路径：_*）现在，我...

scala apache-spark parquet

回答 6 投票 0

使用python从HDFS获取镶木地板文件

我用windows单集群构建自己的hdfs，从此链接获取参考然后我已经输入了我的镶木地板文件，但我无法从其他计算机读取该文件。这是我的 python 代码导入

python hadoop parquet

回答 1 投票 0

带有列定义的 parquet 文件的 Synapse CETAS 失败

在 Synapse 管道中，我尝试使用我之前（从 Azure SQL 数据库）生成的 parquet 文件中的 CETAS 脚本活动。源数据库有一些包含 LOB 列的表...

azure-data-factory parquet azure-synapse external-tables

回答 1 投票 0

有没有办法使用带分区的 pandas to_parquet 覆盖现有数据？

我正在使用 pandas 使用带有分区的 to_parquet 函数来编写镶木地板文件。例子： df.to_parquet('gs://bucket/path',partition_cols=['key']) 问题是每次我运行公司时...

python pandas parquet

回答 3 投票 0

无法使用 DATE 作为 pandas 列的逻辑类型编写镶木地板

我正在尝试编写一个 parquet 文件，其中包含一个日期列，其 parquet 中的逻辑类型为 DATE，物理类型为 INT32。我正在使用 pandas 和 fastparque 编写镶木地板文件...

python pandas google-bigquery parquet fastparquet

回答 2 投票 0

我可以存储带有值混合类型的字典列的 Parquet 文件吗？

我正在尝试将 Python Pandas DataFrame 存储为 Parquet 文件，但遇到了一些问题。我的 Pandas DF 的一列包含这样的字典：将 pandas 导入为 pandas df = pd。

python pandas dataframe parquet pyarrow

回答 3 投票 0

使用密钥将 Pandas Dataframe 存储到 S3

我们如何使用 parquet 格式的密钥将数据帧存储到 S3？我可以在下面的代码中添加哪些参数？文件名=文件名+'.parquet' df.to_parquet('s3://路径/'+文件名) 参数...

python pandas amazon-s3 parquet

回答 1 投票 0

如果我显式传递模式，我是否需要在带有 parquet 的 Spark 中使用“mergeSchema”选项？

来自 Spark 文档：由于模式合并是一个相对昂贵的操作，并且在大多数情况下不是必需的，因此我们从 1.5.0 开始默认关闭它。您可以通过设置启用它...

apache-spark parquet

回答 1 投票 0

apache arrow c++ ParquetFileWriter 页脚和关闭问题

我尝试让我的程序通过 apache arrow 的 StreamWriter 以 parquet 格式写出数据流。但输出文件没有元数据页脚。当尝试使用

c++ parquet apache-arrow

回答 1 投票 0

在 S3 中没有看到文件级下推谓词过滤查询 hive 分区表

我在DuckDB-WASM中使用DuckDB。我正在 S3 中的 hive 分区表之上使用 SQL 创建一个视图，如下所示：创建视图 my_view 或将其替换为选择第 1 部分作为第 1 部分 , 第 2 部分作为第 2 部分，C...

amazon-s3 hive parquet duckdb

回答 1 投票 0

如何使用 Polars Python API 查询镶木地板文件？

我有一个 .parquet 文件，并且想使用 Python 按列快速有效地查询该文件。例如，我可能在该 .parquet 文件中有一个列名称，并且想要取回 f...

python parquet python-polars fastparquet

回答 1 投票 0

snowflake 卸载到 S3，因为 parquet 没有列名，也没有正确的数据类型

以下命令在 S3 中生成 parquet 文件：使用数据库沙箱；使用架构沙箱；创建或替换文件格式 my_parquet_format 类型 = 镶木地板；复制到@bla/x_ 从（选择 ...

python pandas snowflake-cloud-data-platform dask parquet

回答 1 投票 0

日期时间列转换为镶木地板文件时会变形

我正在处理一个csv文件，其中包含一个包含日期的列，但是该列的dtype实际上只是对象，所以我将其更改为日期时间。这部分没有缺陷，数据没有改变...

python dataframe datetime data-science parquet

回答 1 投票 0

Parquet，从具有特定列的所有文件中选择

我需要“选择不同的COLUMN_X” 来自具有“COLUMN_X”的所有镶木地板文件我尝试将 OPENROWSET 与 sys.tables 和 sys.columns 结合起来但它失败了“列

sql azure parquet serverless openrowset

回答 1 投票 0

将 Parquet 导入 Redshift 时出错：可选 int

我正在 Redshift 中创建一个表，如下所示：从 sqlalchemy.ext.declarative 导入 declarative_base 从 sqlalchemy 导入列从 sqlalchemy_redshift.dialect 导入 INTEGER、VARCHAR 基数 =

python python-3.x pandas amazon-redshift parquet

回答 1 投票 0

Pyspark：将数据帧保存到具有特定大小的单个文件的多个 parquet 文件中

如何将 Pyspark 数据帧保存到多个具有特定大小的 parquet 文件？示例：我的数据帧在 HDFS 上使用 500GB，每个文件为 128MB。我想保存到250个parquet文件，每个文件2GB...

apache-spark hadoop pyspark parquet

回答 1 投票 0

如何将 parquet 文件从 Azure Blob 读取到 Pandas DataFrame 中？

我需要在本地计算机上将 .parquet 文件读入 Python 中的 Pandas DataFrame 中，而无需下载文件。 parquet 文件存储在具有分层目录结构的 Azure blob 上....

azure azure-blob-storage parquet

回答 4 投票 0

如何通过parquet文件的结构来了解它们是分区还是独立文件

我在 ADLS gen2 容器中有这样的文件夹/文件结构：单位/年/月/日/ _成功 _坚定的... _开始... 部分-0000...snappy.parquet 第 0001 部分...snappy.parq...

apache-spark databricks parquet azure-data-lake-gen2

回答 3 投票 0

parquet 相关问题

最新问题