hadoop-partitioning 相关问题

Hadoop分区处理有关hadoop如何决定将哪些键/值对发送到哪个reducer（分区）的问题。

在Spark中连接多个表的有效方法 - 设备上没有剩余空间

这里也提出了类似的问题，但它没有正确解决我的问题。我有近100个DataFrame，每个都有至少200,000行，我需要加入它们，做一个完整的......

apache-spark pyspark hadoop-partitioning

回答 2 投票 3

指定Hive插入的最小生成文件数

我在AWS EMR上使用Hive将查询结果插入到按日期分区的Hive表中。虽然每天的总输出大小相似，但生成的文件数量各不相同，通常......

hive amazon-emr hadoop-partitioning

回答 1 投票 1

Hadoop fs -du-h按M，G，T，P，E，Z，Y的大小排序

我正在运行此命令 - sudo -u hdfs hadoop fs -du -h / user | sort -nr和输出没有根据演出，Terabytes，gb排序我找到了这个命令 - hdfs dfs -du -s / foo / bar / * ...

bash shell hadoop hadoop2 hadoop-partitioning

回答 2 投票 2

我可以通过/ bucket在Hive中通过“CREATE TABLE AS SELECT ...”创建一个表吗？

我正在尝试在Hive CREATE TABLE BUCKET_TABLE中创建一个表作为SELECT a。* FROM TABLE1 a LEFT JOIN TABLE2 b ON（a.key = b.key）WHERE b.key IS NUll CLUSTERED BY（key）INTO 1000 BUCKETS;这个语法......

hadoop hive hiveql bucket hadoop-partitioning

回答 4 投票 6

在Apache Spark中，为什么RDD.union不保留分区器？

众所周知，Spark中的分区器对任何“广泛”操作都会产生巨大的性能影响，因此通常会在操作中进行自定义。我正在尝试以下代码：val rdd1 = sc ....

apache-spark partitioning hadoop-partitioning

回答 2 投票 22

Hive中的窗口函数

我正在Hive中探索窗口函数，我能够理解所有UDF的功能。虽然，我无法理解我们使用的分区和顺序...

sql hive mapreduce hadoop-partitioning ranking-functions

回答 1 投票 2

Map-Reduce作业无法提供预期的分区文件

在Map-Reduce作业中，我使用五个不同的文件，其中我的数据集中包含两个类别P和I下的值。在找到特定值后，我将这些传递给I-part-r-00000文件...

java mapreduce hadoop2 hadoop-partitioning

回答 1 投票 0

如何在一个大文件中合并hive分区数据？

我在日期和小时列上分区了hive表。当我加载数据时，我将创建24个文件。我想将这24个文件合并到一个文件中。谁能建议我解决方案

hive hadoop-partitioning merging-data

回答 1 投票 0

我必须实现hadoop，所以它可以处理呼叫详细记录的数据？

我已经配置了HDFS，Datanode和namenode以及hbase。我在HDFS中存储了一个CDR csv文件。那么如何将其与Hbase映射并准备好进行处理呢？

hadoop hadoop-streaming hadoop2 hadoop-plugins hadoop-partitioning

回答 1 投票 -1

hadoop-partitioning 相关问题

最新问题