parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

我正在 R 中测试 polars 实现，我想（懒惰地）读取和处理来自公共 AWS S3 存储桶的镶木地板文件加载后图书馆（aws.s3）图书馆（箭头）图书馆（极地）我试着操作...

r parquet rust-polars

回答 0 投票 0

我想用python上传我的文件到cloud flare R2 制作 API 令牌选项 R2workers 编辑但是有响应 Error 400 导入请求将 pyarrow 导入为 pa 将 pyarrow.parquet 导入为 pq 令牌 ...

python cloud parquet cloudflare cloudflare-workers

回答 0 投票 0

保存为分区镶木地板时是否可以更改输出文件名？

当我们将 pandas 数据帧保存为分区镶木地板时，文件名会自动生成。是否可以指定每个分区的输出文件名？使用示例 df = pd.DataF...

python pandas dataframe parquet

回答 1 投票 0

有效的镶木地板文件，但镶木地板架构错误

我有正确的镶木地板文件（我 100% 确定）并且此目录 v3io://projects/risk/FeatureStore/ptp/parquet/sets/ptp/1681296898546_70/ 中只有一个文件。我得到了这个一般性错误 AnalysisException:

python pyspark parquet mlrun

回答 2 投票 0

使用 Polars 从 S3 读取 Parquet 文件时内存使用量猛增

我尝试从 S3 读取多个 Parquet 文件。我通过以下命令阅读了使用 Polars 和 Pyarrow 的信息： pl.scan_pyarrow_dataset(ds.dataset(f"my_bucket/myfiles/",filesystem=s3)).collect...

python docker amazon-s3 parquet python-polars

回答 0 投票 0

PySpark，实木复合地板“AnalysisException：无法推断 Parquet 的模式”

我遇到了这个问题，当我在 MLRun 中通过 PySpark 从镶木地板读取数据时（它似乎是无效的镶木地板）。见异常： ---------------------------------------------- 分析异常 ...

python pyspark parquet mlrun

回答 1 投票 0

在我的本地机器上创建 parquet 文件时出错

我正在读取一个 csv 文件并将其转换为 parket：读：变量 = spark.read.csv( r'C:\Users\xxxxx.xxxx\Desktop rchive est.csv', sep=';', inferSchema=True, header=True) 发送镶木地板：变种...

python apache-spark pyspark parquet

回答 0 投票 0

pandas.read_parquet 错误地解释了日期字段

我有一个镶木地板文件，其中有一个名为“BusinessDate”的日期字段。当我将它导入数据框时，它会自动确定字段 BusinessDate 是一个日期 (datetime64[ns, UTC])。然而，...

python pandas date parquet

回答 2 投票 0

失败，出现异常 java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException:

我有一个 Parquet 文件（由 Drill 创建），我试图在 Hive 中将其作为外部表读取。我试图以 bignit 格式存储数据，但它指向 parquet 中的长格式。阅读时...

hive parquet

回答 0 投票 0

pandas read_parquet 导入日期字段不正确

python pandas date parquet

回答 2 投票 0

Flink StreamingFileSink - ParquetAvroWriters

我正在使用 Flink - 流式文件接收器来写入传入数据 S3 存储桶。我的代码与 forRowFormat 选项完美配合。现在我正在尝试设置 forBulkFormat 选项以在 parquet 中写入数据 ...

apache-flink parquet flink-streaming

回答 2 投票 0

读取镶木地板文件并跳过不遵循模式的行

我有一堆镶木地板文件存储在 S3 位置，我想将其作为数据框加载。但是，在执行此操作时，有几行我不想/不需要成为数据框的一部分。什么...

apache-spark pyspark apache-spark-sql databricks parquet

回答 1 投票 0

为什么 Pandas 将日期转换为带时间的日期时间？

我的代码在这里： df = pd.read_parquet(r"C:\path o\parquet.parquet", engine='fastparquet') 打印（df）我的源数据如下所示：日期 ---- 2022-02-10 2022-05-03 2164-09-09 我的

sql-server pandas parquet

回答 0 投票 0

从一组镶木地板文件导入边缘列表数据的最简单方法是什么？

我一直在处理存储在 Amazon S3 中的一组文件，这些文件恰好是镶木地板格式。这些文件代表我正在处理的图形的边缘，并且结构化......

parquet memgraphdb

回答 1 投票 0

使用 Parquet.NET 读取 parquet 文件比 pyarrow (python) 需要更多时间

通常在涉及到 parquet 文件操作时，与 python 相比，Parquet.Net 包花费的时间更少/相等。但我最初的一组实验与此不符。读取500万数据点...

python c# .net parquet parquet.net

回答 1 投票 0

fastparquet/pyarrow 镶木地板时间戳溢出

我有一个镶木地板文件，我正在使用 fastparquet/pandas 从 s3 读取，镶木地板文件有一个日期为 2022-10-06 00:00:00 的列，我看到它正在将其包装为 1970-01-20 06:30:14.400，请...

python pandas parquet pyarrow fastparquet

回答 0 投票 0

fastparquet 镶木地板时间戳溢出

python pandas parquet fastparquet

回答 0 投票 0

Dask 忽略有关 parquet 数据集划分的知识

我在目录“dataset_path”中有一个镶木地板数据集，其中包含一个索引列日期。元数据由 dask 创建，相关模式数据如下所示：日期：时间...

dask parquet pyarrow dask-dataframe fastparquet

回答 1 投票 0

如何从命令行或 spark shell 显示 parquet 文件的方案（包括类型）？

我已经确定了如何使用 spark-shell 来显示字段名称但是它很难看并且不包括类型 val sqlContext = new org.apache.spark.sql.SQLContext(sc) println(sqlContext.parque...

scala apache-spark parquet

回答 4 投票 0

parrquet 文件上的 pyarrow 时间戳数据类型错误

当我使用 pyarrow 读取和计算 pandas 中的记录时出现此错误，我不希望 pyarrow 转换为时间戳 [ns]，它可以保留在时间戳 [us] 中，是否可以选择将时间戳保持原样。 ..

python pandas parquet pyarrow fastparquet

回答 1 投票 0

parquet 相关问题

最新问题