parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

在 python 中执行大型极坐标数据帧“转置”的有效方法是什么?

我是第一次使用 Polars。我有一个很大的 csv 文件,它有大约 20 万列和大约 2500 行。现在,我必须对这些列进行一些解析或转换,但是,Po...

回答 1 投票 0

使用 parquet 或 s3 select 查询 s3 中的数据

所以我在 s3 中有一个镶木地板格式的文件,想对它们运行查询。我研究过在 Java 中使用 S3 select。有人提到 Arraow 作为替代品有没有人使用镶木地板? 我发送这个

回答 0 投票 0

使用 java 将镶木地板文件转换为增量时出现异常

我正在尝试使用 java 将 parquet 文件转换为 delta,使用 java 11 和 spark and scale 作为 maven 依赖项,同时尝试执行 im 获取异常 SparkSession spark = SparkSession.builde ...

回答 1 投票 0

如何使用 Azure 客户端下载镶木地板“文件”(实际上是目录)?

我正在使用 az storage fs 文件下载来下载 parquet 目录的内容,如下所示: az 存储 fs 文件下载 --path myname/1/batch-repo/form/Fulfillment/2022/01/02/batch-f...

回答 1 投票 0

在运行 spark SQL 之前,根据 geoparquet 集合中的纬度/经度生成“几何”列

对于我遇到的看似微不足道的问题,如果有任何评论和帮助,我将不胜感激。 我正在从 PySpark 客户端运行 SparkSQL 地理空间查询。 稍后在 SQL 中使用的输入数据集之一是 ...

回答 0 投票 0

AWS Wrangler - 有限内存环境中的 Pandas red_sql 到 S3

我正在寻找一种方法,在内存有限的环境中从数据库中提取数据并将该数据推送到 S3 中的镶木地板数据集中。如果我这样进行: 用 someDB.connect() 作为连接...

回答 1 投票 0

HDFS 上带有 Parquet 数据的 AutoFaiss - OSError:仅对可搜索文件有效

我正在尝试使用 autoafaiss 从以 Parquet 格式存储在 HDFS 中的数据集中生成 ANN 索引。运行 build_index 函数时,我遇到一个错误,指出“OSError:...

回答 0 投票 0

如何在 Duckdb Node.js API 项目中安装扩展?

我想在我的 nodejs 后端项目上使用 duckdb 来读取 Parquet 文件 (https://duckdb.org/docs/api/nodejs/overview)。 我正在使用 yarn 安装包(duckdb:https://www.npmjs.com/package/duc ...

回答 0 投票 0

如何将新数据附加到现有的镶木地板文件中?

我有镶木地板文件,里面有一些数据。我想每天频繁地向它们添加更多数据。我想这样做而不必将对象加载到内存,然后连接并再次写入。

回答 1 投票 0

Parquet/Avro/CSV 用例

我们有一些 csv 格式如下 hash_id c1 c2 c3 其中 hash_id 是一个字符串,c1 c2 和 c3 是整数列表,0 或 1。 理想情况下,我们希望将其编码为一个 numpy 数组,...

回答 0 投票 0

将镶木地板从 S3 复制到 Redshift 失败:无法访问无效类型:4000

我现在正尝试将所有表从我的 AWS RDS (PostgreSQL) 加载到 Amazon Redshift。 不过这里并不那么重要,我使用 Apache Airflow 为我完成所有操作。职位详情如下: Exp...

回答 0 投票 0

如何将分区的 parquet 文件读入 polars?

我想将分区的 parquet 文件读入 polars 数据帧。 在 spark 中,这很简单: df = spark.read.parquet("/my/path") polars 文档说它应该可以正常工作...

回答 1 投票 0

带有镶木地板文件的 dbt 管道

你好,我正在尝试制作一个 dbt 管道,我将 parquet 文件用作数据源。由于没有 dbt-parquet 包,我认为最好的 dbt 包是 dbt-duckdb 因为 duckdb 也支持...

回答 1 投票 0

如何使用 DuckDB 在 Parquet 文件中显示用户模式?

我正在尝试使用 DuckDB 来显示我已写入 Parquet 文件的用户创建的模式。我可以在 Python 中演示(使用 Get schema of parquet file in Python 中的代码示例)...

回答 0 投票 0

如何为红外图像流建模数据集

我有一个 IR 图像流,每帧都有 640x480 分辨率,并使用 16 位存储每个像素中的实际原始数据。我从未使用过图像或红外图像。我想做的是想...

回答 0 投票 0

是否可以使用 R-polars 从公共 S3 存储桶读取镶木地板文件?

我正在 R 中测试 polars 实现,我想(懒惰地)读取和处理来自公共 AWS S3 存储桶的镶木地板文件 加载后 图书馆(aws.s3) 图书馆(箭头) 图书馆(极地) 我试着操作...

回答 0 投票 0

如何使用 python 将我的文件上传到 cloud flare

我想用python上传我的文件到cloud flare R2 制作 API 令牌 选项 R2workers 编辑 但是有响应 Error 400 导入请求 将 pyarrow 导入为 pa 将 pyarrow.parquet 导入为 pq 令牌 ...

回答 0 投票 0

保存为分区镶木地板时是否可以更改输出文件名?

当我们将 pandas 数据帧保存为分区镶木地板时,文件名会自动生成。 是否可以指定每个分区的输出文件名? 使用示例 df = pd.DataF...

回答 1 投票 0

有效的镶木地板文件,但镶木地板架构错误

我有正确的镶木地板文件(我 100% 确定)并且此目录 v3io://projects/risk/FeatureStore/ptp/parquet/sets/ptp/1681296898546_70/ 中只有一个文件。我得到了这个一般性错误 AnalysisException:

回答 2 投票 0

使用 Polars 从 S3 读取 Parquet 文件时内存使用量猛增

我尝试从 S3 读取多个 Parquet 文件。我通过以下命令阅读了使用 Polars 和 Pyarrow 的信息: pl.scan_pyarrow_dataset(ds.dataset(f"my_bucket/myfiles/",filesystem=s3)).collect...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.