parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

是否可以使用 R-polars 从公共 S3 存储桶读取镶木地板文件?

我正在 R 中测试 polars 实现,我想(懒惰地)读取和处理来自公共 AWS S3 存储桶的镶木地板文件 加载后 图书馆(aws.s3) 图书馆(箭头) 图书馆(极地) 我试着操作...

回答 0 投票 0

如何使用 python 将我的文件上传到 cloud flare

我想用python上传我的文件到cloud flare R2 制作 API 令牌 选项 R2workers 编辑 但是有响应 Error 400 导入请求 将 pyarrow 导入为 pa 将 pyarrow.parquet 导入为 pq 令牌 ...

回答 0 投票 0

保存为分区镶木地板时是否可以更改输出文件名?

当我们将 pandas 数据帧保存为分区镶木地板时,文件名会自动生成。 是否可以指定每个分区的输出文件名? 使用示例 df = pd.DataF...

回答 1 投票 0

有效的镶木地板文件,但镶木地板架构错误

我有正确的镶木地板文件(我 100% 确定)并且此目录 v3io://projects/risk/FeatureStore/ptp/parquet/sets/ptp/1681296898546_70/ 中只有一个文件。我得到了这个一般性错误 AnalysisException:

回答 2 投票 0

使用 Polars 从 S3 读取 Parquet 文件时内存使用量猛增

我尝试从 S3 读取多个 Parquet 文件。我通过以下命令阅读了使用 Polars 和 Pyarrow 的信息: pl.scan_pyarrow_dataset(ds.dataset(f"my_bucket/myfiles/",filesystem=s3)).collect...

回答 0 投票 0

PySpark,实木复合地板“AnalysisException:无法推断 Parquet 的模式”

我遇到了这个问题,当我在 MLRun 中通过 PySpark 从镶木地板读取数据时(它似乎是无效的镶木地板)。见异常: ---------------------------------------------- 分析异常 ...

回答 1 投票 0

在我的本地机器上创建 parquet 文件时出错

我正在读取一个 csv 文件并将其转换为 parket: 读: 变量 = spark.read.csv( r'C:\Users\xxxxx.xxxx\Desktop rchive est.csv', sep=';', inferSchema=True, header=True) 发送镶木地板: 变种...

回答 0 投票 0

pandas.read_parquet 错误地解释了日期字段

我有一个镶木地板文件,其中有一个名为“BusinessDate”的日期字段。当我将它导入数据框时,它会自动确定字段 BusinessDate 是一个日期 (datetime64[ns, UTC])。 然而,...

回答 2 投票 0

失败,出现异常 java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException:

我有一个 Parquet 文件(由 Drill 创建),我试图在 Hive 中将其作为外部表读取。 我试图以 bignit 格式存储数据,但它指向 parquet 中的长格式。阅读时...

回答 0 投票 0

pandas read_parquet 导入日期字段不正确

我有一个镶木地板文件,其中有一个名为“BusinessDate”的日期字段。当我将它导入数据框时,它会自动确定字段 BusinessDate 是一个日期 (datetime64[ns, UTC])。 然而,...

回答 2 投票 0

Flink StreamingFileSink - ParquetAvroWriters

我正在使用 Flink - 流式文件接收器来写入传入数据 S3 存储桶。我的代码与 forRowFormat 选项完美配合。 现在我正在尝试设置 forBulkFormat 选项以在 parquet 中写入数据 ...

回答 2 投票 0

读取镶木地板文件并跳过不遵循模式的行

我有一堆镶木地板文件存储在 S3 位置,我想将其作为数据框加载。但是,在执行此操作时,有几行我不想/不需要成为数据框的一部分。什么...

回答 1 投票 0

为什么 Pandas 将日期转换为带时间的日期时间?

我的代码在这里: df = pd.read_parquet(r"C:\path o\parquet.parquet", engine='fastparquet') 打印(df) 我的源数据如下所示: 日期 ---- 2022-02-10 2022-05-03 2164-09-09 我的

回答 0 投票 0

从一组镶木地板文件导入边缘列表数据的最简单方法是什么?

我一直在处理存储在 Amazon S3 中的一组文件,这些文件恰好是镶木地板格式。这些文件代表我正在处理的图形的边缘,并且结构化......

回答 1 投票 0

使用 Parquet.NET 读取 parquet 文件比 pyarrow (python) 需要更多时间

通常在涉及到 parquet 文件操作时,与 python 相比,Parquet.Net 包花费的时间更少/相等。但我最初的一组实验与此不符。读取500万数据点...

回答 1 投票 0

fastparquet/pyarrow 镶木地板时间戳溢出

我有一个镶木地板文件,我正在使用 fastparquet/pandas 从 s3 读取,镶木地板文件有一个日期为 2022-10-06 00:00:00 的列,我看到它正在将其包装为 1970-01-20 06:30:14.400,请...

回答 0 投票 0

fastparquet 镶木地板时间戳溢出

我有一个镶木地板文件,我正在使用 fastparquet/pandas 从 s3 读取,镶木地板文件有一个日期为 2022-10-06 00:00:00 的列,我看到它正在将其包装为 1970-01-20 06:30:14.400,请...

回答 0 投票 0

Dask 忽略有关 parquet 数据集划分的知识

我在目录“dataset_path”中有一个镶木地板数据集,其中包含一个索引列日期。 元数据由 dask 创建,相关模式数据如下所示: 日期:时间...

回答 1 投票 0

如何从命令行或 spark shell 显示 parquet 文件的方案(包括类型)?

我已经确定了如何使用 spark-shell 来显示字段名称但是它很难看并且不包括类型 val sqlContext = new org.apache.spark.sql.SQLContext(sc) println(sqlContext.parque...

回答 4 投票 0

parrquet 文件上的 pyarrow 时间戳数据类型错误

当我使用 pyarrow 读取和计算 pandas 中的记录时出现此错误,我不希望 pyarrow 转换为时间戳 [ns],它可以保留在时间戳 [us] 中,是否可以选择将时间戳保持原样。 ..

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.