parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

在databricks中创建parquet文件后无法在dbfs中找到文件

我创建了一个镶木地板文件，并且此代码已成功执行。但是，在同一路径“/mnt/dev/lvl1/lvl2/”中，有子文件夹lvl2_1和lvl2_2，其中包含“delta”文件...

databricks azure-databricks parquet delta-lake

回答 1 投票 0

dask 的 read_parquet 读取加载模式时应过滤掉的文件

我遇到了一个问题，我正在保存具有稍微不同架构的不同镶木地板文件，但它们具有共享分区列。我创建了以下内容作为最小的可复制示例...

python pandas dask parquet pyarrow

回答 2 投票 0

从 GCP BigQuery 导出到 parquet：如何获得正确的数字类型的比例、精度？

我在 BQ 的表 A 中有一个类型为 NUMERIC(29) 的 A 列。我使用 BigQueryToGCSOperator 将其导出到镶木地板：传输BigQuerryToBucket = BigQueryToGCSOperator( task_id='BigQuerryToBucket' ,

apache-spark pyspark google-bigquery parquet pyarrow

回答 1 投票 0

parquet 文件中 data_page_version=1.0 和 2.0 有什么区别？

在 pyarrow 中，parquet writer 具有 data_page_version 参数，该参数可以是“1.0”或“2.0”，默认值为“1.0”。我有时用“2.0”保存文件

parquet pyarrow apache-arrow

回答 1 投票 0

使用 PyArrow 按时间戳分区时的文件名输出

我目前正在使用 pyarrow 进行分区，使用名为“req_moment”的列对 pyarrow 数据框中的数据进行分区。分区过程本身没问题，但是时间戳是sh...

python parquet pyarrow

回答 1 投票 0

Databricks parquet 写入作业导致空文件

我们有多个 Databricks PySpark 作业，可将 parquet 文件写入 Azure Blob 存储中的同一容器中。最近我们有时会得到一个内容为 0 字节的输出文件，即使源......

azure-blob-storage azure-databricks parquet

回答 1 投票 0

如何使用java Spark不将重复数据（parquet）写入hdfs

我是java、spark和hdfs新手这是我的用例：我读取了一个日志文件，选择我感兴趣的事件，并使用 java Spark 将其作为镶木地板保存在 hdfs 中。现在，如果重新发送相同的日志，

java apache-spark parquet

回答 1 投票 0

我可以从 HTTP(s) 八位字节流读取镶木地板吗？

某些后端端点以八位字节流的形式返回镶木地板文件。在 Pandas 中我可以做这样的事情：结果 = requests.get("https://..../file.parquet") df = pd.read_parquet(io.BytesIO(

python pandas http dask parquet

回答 1 投票 0

从 S3 读取镶木地板的最快方法

我在AWS S3中有一个Parquet文件。我想将其读入 Pandas DataFrame 中。我有两种方法可以实现这一目标。 1）将 pyarrow.parquet 导入为 pq 表 = pq.read_table("s3://tpc-h-

pandas amazon-s3 parquet pyarrow apache-arrow

回答 1 投票 0

雪花镶木地板加载模式生成

正在将 parquet 文件从 S3 位置加载到雪花表。这就是我正在做的：创建目标表创建表 myschema.target_table( 第 1 列日期， col2 VARCHAR); 创建舞台...

snowflake-cloud-data-platform parquet

回答 2 投票 0

R：从 parquet 文件中读取前 n 行？

我意识到 parquet 是一种列格式，但是对于大文件，有时您不想在过滤之前将其全部读取到 R 中的内存中，前 1000 行左右可能足以用于测试。我不...

r parquet

回答 3 投票 0

parquet.net ParquetOptions.UseDeltaBinaryPackedEncoding 如何禁用

我正在使用 Parquet.Net 库从 C# 代码生成 parquet 文件。 4.15.0 版本工作正常，但切换到最新的 4.16.4 后，生成的文件无法使用 ParquetViewer 读取。它...

parquet parquet.net

回答 1 投票 0

如何通过 Jupyter Notebook 将 SAS 数据集转换为 Parquet 文件？

您能否提供有关如何通过 Jupyter Notebook 将 SAS 数据集转换为 Parquet 文件的指导？

sas jupyter parquet

回答 1 投票 0

在Python中列出parquet文件分区的有效方法

我有一个分区镶木地板文件，我想迭代读取每个分区。但是，我想先获取分区列表。在此示例中，我想获取列表 [1, 2]：我的镶木地板。

python pandas parquet pyarrow

回答 1 投票 0

EMR 无服务器 NoClassDefFoundError：软件/amazon/awssdk/transfer/s3/progress/TransferListener

我有一个 Spark 应用程序，可以从 S3 读取镶木地板文件。我的管道非常简单，并且在我的本地集群上运行良好。这是我阅读镶木地板的相关部分：最终数据集&l...

java apache-spark amazon-s3 parquet amazon-emr

回答 1 投票 0

如何在Python中从S3中的pandas数据帧写入镶木地板文件

我有一个pandas数据框。我想将此数据帧写入 S3 中的 parquet 文件。我需要相同的示例代码。我尝试用谷歌搜索它。但我无法获得有效的示例代码。

python-3.x amazon-s3 parquet

回答 5 投票 0

将“null”值传递到 Azure Synapse 中的文件名参数中会根据获取的表 schema.table 生成文件名

我在 Azure Synapse 中创建了一个管道，包含两个步骤：读取 .csv 文件的 Lookup 活动。 Foreach 活动，迭代 .csv 文件中的每个值/行并检索...

azure parquet azure-synapse

回答 1 投票 0

将 parquet 文件中的一列字符串读取到 C++ 字符串变量中

我有一个使用 python Polars 包创建的镶木地板文件。它有一列可变长度字符串，如下所示： ┌──────────┐ │ 字符串列表 │ │ --- │ │ str │ ╞═...

c++ parquet python-polars apache-arrow

回答 1 投票 0

如何让 redshift 识别 parquet 文件外部表中时间戳的正确格式

我正在转换镶木地板文件中的日期，如下所示： timestamp_column = next((col for col in df.columns if 'timestamp' in col), None) 如果时间戳_列： # 将纪元转换为日期...

amazon-redshift parquet

回答 1 投票 0

如何将 Delta 文件格式转换为仅 Parquet 文件

Delta Lake 是默认存储格式。我了解如何将 parquet 转换为 Delta。我的问题是有什么办法可以将其恢复为镶木地板。有什么选择吗？我需要的是我想要单杆...

apache-spark databricks parquet azure-synapse delta-lake

回答 2 投票 0

parquet 相关问题

最新问题