orc 相关问题

优化行列式(ORC)文件格式提供了一种存储Hive数据的高效方法。它旨在克服其他Hive文件格式的限制。当Hive读取,写入和处理数据时,使用ORC文件可以提高性能。

如何读取Python Pandas本地存储的ORC文件?

我是否可以将 ORC 文件视为类似于 CSV 文件,其中列标题和行标签包含数据?如果是这样,我可以以某种方式将其读入一个简单的 pandas 数据框吗?我对工具不太熟悉

回答 6 投票 0

sortWithinPartitions 是如何排序的?

将 sortWithinPartitions 应用于 df 并将输出写入表后,我得到的结果我不知道如何解释。 df .select($"类型", $"id", $"时间") .

回答 1 投票 0

当我尝试使用 pyarrow 打开简单的 .orc 文件时,出现“致命 Python 错误:中止”并且没有可以处理的解释性错误消息

我正在使用: 赢 10 专业版 英特尔(R) 至强(R) W-1250 CPU @ 3.30GHz / 16 GB RAM 蟒蛇导航器 2.5.0, venv 中的 Python 3.10.13 pyarrow 11.0.0 熊猫2.1.1 在 Spyder IDE 5.4.3 中运行脚本 我想要...

回答 1 投票 0

在 Flink 应用程序中从 AWS S3 存储桶读取 ORC 文件

我们正在使用 Flink 版本 1.13.5 并尝试从 AWS S3 位置读取 ORC 文件。而且,我们正在将应用程序部署在自我管理的 Flink 集群中。请查找以下代码以了解更多信息...

回答 1 投票 0

二进制格式,允许存储具有不同列、宽度、行的多个 pandas 数据帧

我有大约 200 个 pandas 数据框,每个数据框都有一些独特的列,或者可能完全不同的列。例子: df1 = pd.DataFrame({ '产品': ['苹果', '香蕉', '橙子', '芒...

回答 1 投票 0

连接外部和内部表时 hive 失败

我们的环境/版本 Hadoop 3.2.3 蜂巢3.1.3 火花2.3.0 我们在 hive 中的内部表定义为 创建表 dw.Client ( client_id 整数, client_abbrev 字符串, 客户名称字符串,

回答 2 投票 0

如何读取hive ACID ORC表转储

我尝试使用 pyspark 和 hive 读取 hive ACID ORC 表转储文件。 转储文件架构如下。 结构< operation: int, originalTransaction: bigInt, bucket: int, rowId: bigInt,

回答 0 投票 0

在什么情况下,禁用 Hadoop 向量化执行比启用它更好

Hive 中的矢量化是一项功能(可从 Hive 0.13.0 获得),当启用时而不是一次读取一行读取 1024 行上的块。这提高了 CPU 使用率等操作,...

回答 0 投票 0

hive没有从外部表中以ORC格式返回值。

我试图从Hive上的一个外部表中检索数据。我使用基于clouderaquickstart镜像的docker容器来做这件事,该镜像是Cloudera的官方镜像。表:创建...

回答 1 投票 1

试图以Dask数据框架的形式读取ORC。

我在 s3 中有一个 ORC 文件,我想把它读到 Dask 数据框架中。我正在使用conda来获得一个python 3.7的虚拟环境,并且我已经安装了Dask。我的环境是这样的。# 名称...

回答 1 投票 0

从S3读取ORC文件到Pandas

我想把一个orc文件从s3读到pandas的数据框中。在我的pandas版本中,没有pd.read_orc(...)。我试着这样做: session = boto3.Session() s3_client = session.client('s3')......

回答 2 投票 0

Pyspark-合并多个ORC模式

我有2个不同的目录,下面有一个ORC文件。这两个文件具有不同的架构。将两个目录读入同一DataFrame时,最终模式取决于...

回答 1 投票 0

Hive ORC表空字符串

我有一个Hive表,其中的数据存储为ORC。我在某些字段中写了空值(空白,““”),但是有时当我在此表上运行选择查询时,空字符串列在...

回答 1 投票 0

Spark无法在分区和追加模式下写入新的配置单元表

以分区和ORC格式在配置单元中创建了一个新表。通过使用append,orc和分区模式使用spark写入此表。它因以下原因而失败:org.apache.spark.sql ....

回答 1 投票 0

Pyspark:仅读取特定日期的ORC数据

我有3个数据文件存储在ORC中,并按DATE进行了分区。 /orc/orc_FLORIDA_2019-04-29/alloc_FLORIDA_2019-04-29/DATE=2019-04-29/myfile.snappy.orc / orc / orc_FLORIDA_2019-04-29 / avails_FLORIDA_2019 -...

回答 1 投票 0

将spark数据拆分为分区,然后将这些分区并行写入磁盘中

问题概述:假设我在AWS的EMR集群上通过Spark处理了300+ GB的数据。此数据具有用于在Hive中使用的文件系统分区的三个属性:日期,小时和(...

回答 1 投票 0

Redshift Copy命令中没有错误,用于加载ORC,但Redshift表未更新

我正在使用COPY命令将Amazon S3存储桶中存在的ORC文件加载到Amazon Redshift数据库。复制命令成功运行,但Redshift表未更新。我无法...

回答 1 投票 0

从ORC文件创建外部配置单元表的方式

我正在尝试在ORC文件上创建外部配置单元表。用于创建表的查询:创建外部表fact_scanv_dly_stg(store_nbr int,geo_region_cd char(2),scan_id int,scan_type char(2),...

回答 1 投票 0

Pyspark或缩放问题中的ORC条带大小设置

我在使用PySpark设置orc文件上的条带大小,索引跨度和索引时遇到问题。当我期望256MB的内存只有5个带区时,我获得1.2GB文件的大约2000个带区...

回答 1 投票 3

128 MB的HDFS块可以存储两个大小分别为1MB的不同ORC文件吗?

我正在研究Hadoop的存储方面,并探索如何将ORC文件存储在HDFS块上。] >>

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.