parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

spark 在写入 delta 表时使用什么版本的 parquet 文件格式？

有没有办法配置spark在将数据帧写入增量表时写入特定版本的parquet格式？我找不到任何东西可以帮助我配置文件格式版本...

python apache-spark pyspark parquet delta

回答 1 投票 0

Redshift - 字符串列被截断

我们利用 AWS Glue 爬网程序提取存储在 Amazon S3 中的 Parquet 文件。爬网程序检测 Parquet 文件的架构和元数据，并在 Amazon Redshift 中创建外部架构/表....

amazon-web-services amazon-redshift aws-glue parquet

回答 2 投票 0

Bigquery 导出为 parquet 文件分区

每当我需要将数据从 Bigquery 导出到 parquet 时，我发现自己处于以下情况，要么使用： dask-bigquery：我的数据集大约需要 40 分钟；输出 700 个文件，约 12...

google-cloud-platform google-bigquery parquet

回答 1 投票 0

将 parquet 文件转换为具有嵌套元素的 Golang 结构

我正在尝试使用 xitongsys/parquet-go 库读取 Go 中带有嵌套数组/结构的镶木地板文件。列表数据没有被读取，也没有看到值。下面是我在 Golang 中的结构典型...

go parquet

回答 2 投票 0

使用duckdb查询一定范围内的多个parquet文件

我有以此格式排列的镶木地板文件 /db/{year}/table{date}.parquet 每个年份文件夹中最多有 365 个文件。如果我想查询某个时间范围内的数据，比如说2024年4月28日到202年这一周...

parquet duckdb

回答 1 投票 0

Athena - 创建字段名称与镶木地板列名称不同的外部表

我正在尝试使用 Athena 创建外部表。正在读取的数据格式为镶木地板，我的外部表脚本是：如果不存在则创建外部表 my_table ( 一个字符串， ...

hive parquet amazon-athena external-tables

回答 1 投票 0

Parquet Writer 写入缓冲区或字节流

我有一个java应用程序，可以将json消息转换为镶木地板格式。是否有任何 parquet writer 可以在 java 中写入缓冲区或字节流？大多数示例，我都见过写入文件。

java bufferedreader parquet

回答 3 投票 0

每个分区文件是否包含Spark DataFrameWriter.partitionBy之后的所有列？

在Spark数据管道中，我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。是否保证e...

apache-spark pyspark parquet

回答 2 投票 0

使用 pandas 或 arrow 读取 Snowflake 创建的分区镶木地板文件时出现问题

ArrowInvalid：无法合并：字段 X 具有不兼容的类型：字符串与字典 ArrowInvalid：无法合并：字段 X 具有不兼容的类型：de...

python snowflake-cloud-data-platform parquet pyarrow duckdb

回答 2 投票 0

每个分区文件是否包含 Spark DataFrameWriter.partitionBy 之后的所有行？

在Spark数据管道中，我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。是否保证e...

apache-spark pyspark parquet

回答 1 投票 0

如何使用 Apache Sedona 将 parquet 格式数据框中的纬度和经度列转换为点类型（几何）？

我有 100 TB 的 parquet 格式的数据。该数据有很多列，包括纬度和经度列。我想使用 Apache Sedona 将这些列转换为点类型列（

geometry bigdata parquet spatial apache-sedona

回答 1 投票 0

dask：'TypeError（“read_row_group_file（）得到意外的关键字参数\'infile\'”）'

我使用“conda install dask”安装了 Dask，但是当在 parquet 上使用函数时，我不断收到这些错误。我通过将 dask 版本降级到 2022.6.1 来解决这个问题，但是我会...

python-3.x dask parquet dask-dataframe

回答 1 投票 0

如何从 AWS Kinesis Firehose 写入具有 int64 时间戳（而不是 int96）的 Parquet 文件？

为什么 int96 时间戳对我不起作用？我想使用 S3 Select 读取 Parquet 文件。根据文档，S3 Select 不支持保存为 int96 的时间戳。另外，存储时间戳...

hive aws-glue parquet amazon-kinesis-firehose amazon-s3-select

回答 2 投票 0

使用 pyarrow 读取多个 csv 文件

我正在寻找使用来自hadoop的PyArrow读取多个csv文件，但我不知道如何做到这一点。为了给您提供更多背景信息，我有一些包含多个 csv 文件的文件夹文件夹：文件0 文件1 文件2 电子...

python csv parquet pyarrow

回答 1 投票 0

使用 pandas read_parquet 对分区列进行过滤的多个条件

如果我有分区数据，并且我要使用 pd.read_parquet 中的filters参数进行过滤，我该如何实现这一点？例如：将 pandas 导入为 pd 数据 = { “ID”：[1,2,3], ...

python pandas parquet

回答 1 投票 0

Pypark 附加分区会覆盖未分区的镶木地板

在Azure Databricks中，当我有一个未按某些列分区的镶木地板文件时。随后附加一个带有partitionBy("some_column")的新数据框，这是我原来的&q的数据......

pyspark databricks parquet

回答 1 投票 0

无法让极坐标从 S3 404 未找到读取配置单元布局镶木地板文件

我正在努力通过极坐标从 S3 读取数据，但一直得到无用的信息客户端错误，状态为 404 Not Found 数据分布在 S3 中，我认为是 Hive 分区（al...

amazon-s3 hive parquet python-polars

回答 1 投票 0

带有溢出和 Alluxio 缓存的 Trino 向对象存储发出大量请求

我有 Trino、Hive Metastore 和 Minio 存储的本地设置。我已经在 Trino 上启用并配置了 Alluxio 缓存和磁盘溢出。对对象存储的请求数量更高

hive parquet minio trino alluxio

回答 1 投票 0

Kafka Connect：读取 JSON 序列化的 Kafka 消息，转换为 Parquet 格式并保存在 S3 中

我需要从 Kafka 主题读取 JSON 序列化消息，将它们转换为 Parquet 并保留在 S3 中。背景官方 S3-Sink-Connector 支持 Parquet 输出格式，但是：你

json apache-kafka parquet apache-kafka-connect s3-kafka-connector

回答 2 投票 0

Parquet文件覆盖压缩优化时如何保证Spark查询的原子性和数据完整性？

我有一个 Spark 设置，其中存在包含原始 Parquet 文件的分区，并且查询正在这些分区上主动运行。我正在运行后台作业来优化这些 Parquet 文件以获得更好的效果

apache-spark hadoop parquet data-lakehouse

回答 1 投票 0

parquet 相关问题

最新问题