parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

在databricks中创建parquet文件后无法在dbfs中找到文件

我创建了一个镶木地板文件,并且此代码已成功执行。但是,在同一路径“/mnt/dev/lvl1/lvl2/”中,有子文件夹lvl2_1和lvl2_2,其中包含“delta”文件...

回答 1 投票 0

dask 的 read_parquet 读取加载模式时应过滤掉的文件

我遇到了一个问题,我正在保存具有稍微不同架构的不同镶木地板文件,但它们具有共享分区列。我创建了以下内容作为最小的可复制示例...

回答 2 投票 0

从 GCP BigQuery 导出到 parquet:如何获得正确的数字类型的比例、精度?

我在 BQ 的表 A 中有一个类型为 NUMERIC(29) 的 A 列。我使用 BigQueryToGCSOperator 将其导出到镶木地板: 传输BigQuerryToBucket = BigQueryToGCSOperator( task_id='BigQuerryToBucket' ,

回答 1 投票 0

parquet 文件中 data_page_version=1.0 和 2.0 有什么区别?

在 pyarrow 中,parquet writer 具有 data_page_version 参数,该参数可以是“1.0”或“2.0”,默认值为“1.0”。我有时用“2.0”保存文件

回答 1 投票 0

使用 PyArrow 按时间戳分区时的文件名输出

我目前正在使用 pyarrow 进行分区,使用名为“req_moment”的列对 pyarrow 数据框中的数据进行分区。分区过程本身没问题,但是时间戳是sh...

回答 1 投票 0

Databricks parquet 写入作业导致空文件

我们有多个 Databricks PySpark 作业,可将 parquet 文件写入 Azure Blob 存储中的同一容器中。最近我们有时会得到一个内容为 0 字节的输出文件,即使源......

回答 1 投票 0

如何使用java Spark不将重复数据(parquet)写入hdfs

我是java、spark和hdfs新手 这是我的用例: 我读取了一个日志文件,选择我感兴趣的事件,并使用 java Spark 将其作为镶木地板保存在 hdfs 中。 现在,如果重新发送相同的日志,

回答 1 投票 0

我可以从 HTTP(s) 八位字节流读取镶木地板吗?

某些后端端点以八位字节流的形式返回镶木地板文件。 在 Pandas 中我可以做这样的事情: 结果 = requests.get("https://..../file.parquet") df = pd.read_parquet(io.BytesIO(

回答 1 投票 0

从 S3 读取镶木地板的最快方法

我在AWS S3中有一个Parquet文件。我想将其读入 Pandas DataFrame 中。我有两种方法可以实现这一目标。 1) 将 pyarrow.parquet 导入为 pq 表 = pq.read_table("s3://tpc-h-

回答 1 投票 0

雪花镶木地板加载模式生成

正在将 parquet 文件从 S3 位置加载到雪花表。这就是我正在做的: 创建目标表 创建表 myschema.target_table( 第 1 列日期, col2 VARCHAR); 创建舞台...

回答 2 投票 0

R:从 parquet 文件中读取前 n 行?

我意识到 parquet 是一种列格式,但是对于大文件,有时您不想在过滤之前将其全部读取到 R 中的内存中,前 1000 行左右可能足以用于测试。我不...

回答 3 投票 0

parquet.net ParquetOptions.UseDeltaBinaryPackedEncoding 如何禁用

我正在使用 Parquet.Net 库从 C# 代码生成 parquet 文件。 4.15.0 版本工作正常,但切换到最新的 4.16.4 后,生成的文件无法使用 ParquetViewer 读取。它...

回答 1 投票 0

如何通过 Jupyter Notebook 将 SAS 数据集转换为 Parquet 文件?

您能否提供有关如何通过 Jupyter Notebook 将 SAS 数据集转换为 Parquet 文件的指导?

回答 1 投票 0

在Python中列出parquet文件分区的有效方法

我有一个分区镶木地板文件,我想迭代读取每个分区。 但是,我想先获取分区列表。 在此示例中,我想获取列表 [1, 2]: 我的镶木地板。

回答 1 投票 0

EMR 无服务器 NoClassDefFoundError:软件/amazon/awssdk/transfer/s3/progress/TransferListener

我有一个 Spark 应用程序,可以从 S3 读取镶木地板文件。我的管道非常简单,并且在我的本地集群上运行良好。 这是我阅读镶木地板的相关部分: 最终数据集&l...

回答 1 投票 0

如何在Python中从S3中的pandas数据帧写入镶木地板文件

我有一个pandas数据框。我想将此数据帧写入 S3 中的 parquet 文件。 我需要相同的示例代码。我尝试用谷歌搜索它。但我无法获得有效的示例代码。

回答 5 投票 0

将“null”值传递到 Azure Synapse 中的文件名参数中会根据获取的表 schema.table 生成文件名

我在 Azure Synapse 中创建了一个管道,包含两个步骤: 读取 .csv 文件的 Lookup 活动。 Foreach 活动,迭代 .csv 文件中的每个值/行并检索...

回答 1 投票 0

将 parquet 文件中的一列字符串读取到 C++ 字符串变量中

我有一个使用 python Polars 包创建的镶木地板文件。它有一列可变长度字符串,如下所示: ┌──────────┐ │ 字符串列表 │ │ --- │ │ str │ ╞═...

回答 1 投票 0

如何让 redshift 识别 parquet 文件外部表中时间戳的正确格式

我正在转换镶木地板文件中的日期,如下所示: timestamp_column = next((col for col in df.columns if 'timestamp' in col), None) 如果时间戳_列: # 将纪元转换为日期...

回答 1 投票 0

如何将 Delta 文件格式转换为仅 Parquet 文件

Delta Lake 是默认存储格式。我了解如何将 parquet 转换为 Delta。 我的问题是有什么办法可以将其恢复为镶木地板。有什么选择吗? 我需要的是我想要单杆...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.