orc 相关问题

优化行列式(ORC)文件格式提供了一种存储Hive数据的高效方法。它旨在克服其他Hive文件格式的限制。当Hive读取,写入和处理数据时,使用ORC文件可以提高性能。

如何使用tez更改ORC文件的映射器数量?

我正在尝试增加地图任务的数量。文件格式为ORC,并使用TEZ进行处理。我有一个2.8 GB的文件。大约128 MB的文件,文件数约为29。每个...

回答 1 投票 0

火花ORC微调(文件大小,条纹)

我的问题分为两部分:如何使用Spark设置(微调)高级ORC参数?各种各样的帖子表明,Spark小型ORC条带可能存在问题,如何在Spark中设置ORC条带大小。 ...

回答 1 投票 0

Spark(v 2.3.2)数据帧正在读取ORC文件中的所有列作为字符串类型。这是正常行为吗?

我有一堆CSV文件,正在使用ETL工具Informatica以ORC格式加载到HDFS中。加载到HDFS后,我想提取...

回答 1 投票 0

错误的火花写ORC文件的Hadoop

我在做一个项目,一个提供小型集群学校(4个节点,1是NameNode和火花主)。我做的计算,然后写火花数据帧到Hadoop的作为ORC文件。然后我得到...

回答 1 投票 3

转换CSV到ORC文件格式

我在其中包含逗号分隔值BLOB存储的文件。如何转换这个txt文件到ORC format.I正在加载此数据到SQL Azure的数据仓库,而不是使用Java。请分享你的想法...

回答 1 投票 0

谓词下推VS布隆过滤器

虽然寻找有关大数据的查询优化,尤其是ORC文件,我我碰到两种可能性来谓语下推和布隆过滤器。谓词下推帮助我们避免读...

回答 1 投票 1

在总线编号上执行OCR的正确步骤

我一直致力于我的项目,我必须检测总线并在总线编号和方向上执行OCR。我成功地检测了公交车并保存了公交车号码和方向的图像......

回答 1 投票 -3

谓词下推如何正常工作?

任何人都可以用例子来解释谓词下推是如何工作的吗?

回答 1 投票 -1

如何将小ORC文件合并或合并到较大的ORC文件中?

SO和网上的大多数问题/答案讨论使用Hive将一堆小ORC文件组合成一个较大的ORC文件,但是,我的ORC文件是按日分开的日志文件,我需要保留...

回答 2 投票 2

Spark DataFrame ORC Hive表读取问题

我试图在Spark中读取一个Hive表。下面是Hive表格式:#Storage Information SerDe Library:org.apache.hadoop.hive.ql.io.orc.OrcSerde InputFormat:org.apache.hadoop ....

回答 2 投票 0

为什么spark.sql.orc.filterPushdown默认为spark?

为什么spark.sql.orc.filterPushdown默认值为false?将spark.sql.orc.filterPushdown值设置为true会导致一些性能开销,或者spark的orc有一些限制......

回答 1 投票 0

如何将ORC BytesColumnVector值设置为NULL?

我正在使用Groovy编写ORC文件。其中一列是String。 ORC列类型为:.addField(“Name”,TypeDescription.createString())列向量为:BytesColumnVector vName =(...

回答 1 投票 1

Hive - 柱状扫描是否适用于CSV外部表

通常,如果我们创建一个带有镶木地板或ORC的Hive表,那么它将扫描我们在select查询中提到的特定列。但是,让我们说,我有10个CSV文件并在...上创建了一个外部表

回答 2 投票 1

复杂类型的模式演化

spark中结构数组(复杂类型)的模式演化状态是什么?我知道对于常规简单类型的ORC或Parquet工作相当不错(添加新列)但我...

回答 1 投票 1

由Spark JDBC读取表头引起的java.lang.NumberFormatException

我试图使用Spark的JDBC访问存储在远程集群上的表(ORC格式):val jdbcDF = spark.read .format(“jdbc”)。option(“url”,url).option(“dbtable”,“指标“)...

回答 3 投票 1

使用AWS Glue将CSV转换为ORC时如何排除分区?

我在S3中有一堆CSV文件,我试图使用AWS Glue中的ETL作业转换为ORC。我有一个爬虫程序,它爬行包含CSV的目录并生成一个表。表看起来......

回答 1 投票 0

无法使用Spark合并小型ORC文件

我有一个外部ORC表,其中包含大量小文件,这些文件每天都来自源代码。我需要将这些文件合并为更大的文件。我试图将ORC文件加载到...

回答 1 投票 2

Apache Drill可以读取Apache ORC文件格式吗?

Apache Drill可以读取ORC文件吗?

回答 1 投票 2

附加到ORC文件

我是大数据和相关技术的新手,所以我不确定我们是否可以将数据附加到现有的ORC文件中。我正在使用Java API编写ORC文件,当我关闭Writer时,我无法打开...

回答 3 投票 2

Apache nifi问题,将数据从json保存到orc

我正在使用NIFI jsontoavro-> avrotoorc-> puthdfs。但面临以下问题。 1)单个ORC文件正在HDFS上保存。我没有使用任何压缩。 2)当我尝试访问这些文件时,他们是......

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.