parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

使用 pyspark 从 s3 缓慢读取 500k 小 parquet 文件

我一直在开发一个转换系统,其源是存储在 s3 中的大量小 parquet 文件(~150 KB)。当我尝试使用 Spark.read.par 在 pyspark 作业中读取这些文件时...

回答 1 投票 0

如果该表后来转换为 Parquet 表,对 Delta 表进行 Zorder 会影响性能吗?

我是 Delta 桌子的所有者,一些消费者希望将其复制为镶木地板桌子。由于种种原因,我公司内部有些人不会使用达美航空。我已将此 Delta 表按 Z 排序为

回答 1 投票 0

我可以添加更多列然后在 parquet 文件中添加数据吗

我可以使用 COPY 命令将 parquet 文件的内容导入到 redshift,但我还想添加更多列,例如数据插入的时间,以及 parquet 文件的路径...

回答 1 投票 0

如何在使用“arrow”R 包(arrow::open_dataset)和 dplyr 动词时使用整洁的 eval 编写函数?

我正在努力做什么 我正在尝试编写一个使用 dplyr 动词的函数,并将“箭头打开数据集”作为第一个参数,将该数据集中的一列作为第二个参数...

回答 1 投票 0

远程存储和检索 300 个短时间序列作为 pandas 数据帧的最快方法

我有一个包含大约 300 个 Pandas 时间序列的数组,每个序列不超过 6 列,不超过 10,000 行。 我需要将它们存储在一个单独的持久机器中,我可以从中访问......

回答 1 投票 0

将 pyspark 数据帧保存到 parquet 文件时发出问题

我正在从 csv 文件读取数据并存储到 parquet 文件中,在将数据保存到 parquet 文件中时,正在创建一个空文件夹(文件夹名称为 test.parquet)并且未获取 parquet 文件...

回答 1 投票 0

有没有一种有效的方法来合并镶木地板文件?

上下文: 据我所知,大约 4 年前有人提出过一个与此相关的问题: 有效合并大镶木地板文件 问题: 不过我想知道有没有什么好的解决方案...

回答 2 投票 0

有效合并大镶木地板文件

我正在使用镶木地板工具来合并镶木地板文件。但 parquet-tools 似乎需要与合并文件一样大的内存。我们在 parquet-tools 中是否还有其他方法或可配置选项...

回答 2 投票 0

将小型镶木地板文件合并为单个大型镶木地板文件

我一直在尝试合并小镶木地板文件,每个文件有 10 k 行,并且每组小文件的数量将为 60-100。因此,合并后的 parquet 文件中至少包含约 600k 行。 我

回答 3 投票 0

使用 DuckDB 内存不足将多个 CSV 转换为 Parquet

我正在尝试使用 DuckDB 将 30 个 CSV 文件(大约 12Gb 未压缩和 3000 万行)读取到单个 Parquet 文件中。我今天已经升级到最新版本0.10.0。 我的每一个 CSV 都是

回答 1 投票 0

如何使用linux或hdfs命令将多个parquet文件合并为单个parquet文件?

我生成了多个小 parquet 文件作为 hive ql 作业的输出,我想将输出文件合并到单个 parquet 文件吗? 使用 hdfs 或 linux 命令执行此操作的最佳方法是什么...

回答 4 投票 0

Spark Parquet 读取错误:java.io.EOFException:已到达流末尾,还剩 XXXXX 字节可供读取

在spark中读取parquet文件时,如果遇到以下问题。 应用程序 > 线程“main”org.apache.spark.SparkException 中出现异常:作业因阶段失败而中止:阶段 2.0 中的任务 0 失败 4

回答 3 投票 0

错误包arrowR:“TProtocolException:超出大小限制”-是否可以读取镶木地板文件

按照SO中与此错误相关的问题: `open_dataset()` 中出现错误: ! IOError:创建数据集时出错。无法从“path/example.parquet”读取架构。 这是一个“镶木地板”文件吗?: ...

回答 1 投票 0

如何将镶木地板文件加载到Snowflake数据库中?

是否可以将镶木地板文件直接加载到雪花中? 如果是的话 - 怎么办? 谢谢。

回答 4 投票 0

读取文件夹中的多个 parquet 文件并使用 python 写入单个 csv 文件

我是Python新手,我有一个场景,其中有多个文件名按顺序排列的镶木地板文件。例如:par_file1、par_file2、par_file3 等,文件夹中最多 100 个文件。 我需要阅读这些

回答 6 投票 0

读取 Parquet 文件而不从 URL 读入内存(使用 Python)

我正在尝试读取此处存储和公开可用的纽约数据集,我将 2022 年镶木地板文件的底层位置提取为“https://d37ci6vzurychx.cloudfront.net/...

回答 2 投票 0

python 将 parquet 空字符串读取为缺失值

我的数据如下所示: df = pd.DataFrame({'col': ['a', 'b', ''], }) df.to_parquet('df.parquet') 读取文件时,我想读取空字符串('')作为缺失值...

回答 1 投票 0

将具有不合规字段名称的 Parquet 文件导入 AWS Athena

我需要从 Parquet 文件设置 Athena 表,其中某些列的名称不符合 Athena 的 SQL 方言,例如: 长度超过 128 个字符 多个列的名称仅...

回答 2 投票 0

无法将 NULL 值转换为非 Nullable 类型:执行 S3 时。 (不能插入NULL_IN_ORDINARY_COLUMN

我尝试使用以下代码从镶木地板文件插入数据: 插入 General_marts.gm_order 选择 * 从 s3( 'http://host:9000/general-marts/general_mart_order/year=2024/month=02/day=12/*.snappy.p...

回答 1 投票 0

如何在下载完成后只下载 HuggingFace 数据集的 .parquet 文件而不生成 .arrow 文件?

我想下载HuggingFace数据集的所有.parquet文件,例如uonlp/CulturaX,下载完成后不会生成 .arrow 文件。 如果我使用: 从数据集导入load_datase...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.