hadoop-partitioning 相关问题

Hadoop分区处理有关hadoop如何决定将哪些键/值对发送到哪个reducer(分区)的问题。

在Spark中连接多个表的有效方法 - 设备上没有剩余空间

这里也提出了类似的问题,但它没有正确解决我的问题。我有近100个DataFrame,每个都有至少200,000行,我需要加入它们,做一个完整的......

回答 2 投票 3

指定Hive插入的最小生成文件数

我在AWS EMR上使用Hive将查询结果插入到按日期分区的Hive表中。虽然每天的总输出大小相似,但生成的文件数量各不相同,通常......

回答 1 投票 1

Hadoop fs -du-h按M,G,T,P,E,Z,Y的大小排序

我正在运行此命令 - sudo -u hdfs hadoop fs -du -h / user | sort -nr和输出没有根据演出,Terabytes,gb排序我找到了这个命令 - hdfs dfs -du -s / foo / bar / * ...

回答 2 投票 2

我可以通过/ bucket在Hive中通过“CREATE TABLE AS SELECT ...”创建一个表吗?

我正在尝试在Hive CREATE TABLE BUCKET_TABLE中创建一个表作为SELECT a。* FROM TABLE1 a LEFT JOIN TABLE2 b ON(a.key = b.key)WHERE b.key IS NUll CLUSTERED BY(key)INTO 1000 BUCKETS;这个语法......

回答 4 投票 6

在Apache Spark中,为什么RDD.union不保留分区器?

众所周知,Spark中的分区器对任何“广泛”操作都会产生巨大的性能影响,因此通常会在操作中进行自定义。我正在尝试以下代码:val rdd1 = sc ....

回答 2 投票 22

Hive中的窗口函数

我正在Hive中探索窗口函数,我能够理解所有UDF的功能。虽然,我无法理解我们使用的分区和顺序...

回答 1 投票 2

Map-Reduce作业无法提供预期的分区文件

在Map-Reduce作业中,我使用五个不同的文件,其中我的数据集中包含两个类别P和I下的值。在找到特定值后,我将这些传递给I-part-r-00000文件...

回答 1 投票 0

如何在一个大文件中合并hive分区数据?

我在日期和小时列上分区了hive表。当我加载数据时,我将创建24个文件。我想将这24个文件合并到一个文件中。谁能建议我解决方案

回答 1 投票 0

我必须实现hadoop,所以它可以处理呼叫详细记录的数据?

我已经配置了HDFS,Datanode和namenode以及hbase。我在HDFS中存储了一个CDR csv文件。那么如何将其与Hbase映射并准备好进行处理呢?

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.