mapreduce 相关问题

MapReduce是一种使用大量节点处理某些类型的可分发问题的大型数据集的算法

ES6 Map使用Redux状态的映射和填充减少数组变平

我正在使用ES6编写React / Redux应用程序,我想要一种有效的方法来映射这些数据:[{total:50,label:“C1”},{total:120,label:“C2”},{total:220 ,标签:“C4”}]类似......

回答 4 投票 1

由于AM容器,应用程序失败了2次:退出,退出时使用exitCode:1

我在hadoop-2.7.0上运行了mapreduce作业,但mapreduce作业无法启动,我遇到了这个波纹管错误:作业job_1491779488590_0002因状态失败而失败,原因是:应用...

回答 3 投票 13

Pig:java.lang.IncompatibleClassChangeError:找到接口org.apache.hadoop.mapreduce.JobContext,但是类是预期的

安装细节:猪版本:0.16 Hadoop:2.7.3 pig -h给出了预期的结果。我试过:ant clean jar-all -Dhadoopversion = 23 - 但它没有帮助。我的Hadoop安装文件夹......

回答 1 投票 2

Spark支持gzip格式吗?

对于大数据项目,我计划使用spark,它具有一些很好的功能,如内存计算,用于重复的工作负载。它可以在本地文件上运行,也可以在HDFS上运行。但是,在......

回答 1 投票 41

在MapReduce实现中,reduce函数是否与map函数类似地索引?

如果我在Couch中有几个文档看起来像这样:{“_ id”:“be890e3ee1457e920f12722c44001b0e”,//或任何自动ID“_rev”:“7-74d1787aa3ca6d2526c4436577da660f”,//或任何自动转...

回答 1 投票 1

火花上的蜂巢 - 为什么不'select *'产生火花app /执行者?

我在Spark(exec引擎)上设置了Hive(v2.3.4)。这将启动一个spark应用程序/执行程序:从s.t中选择count(*),其中h_code ='KGD78'和h_no ='265'为什么不启动spark app / ...

回答 1 投票 1

计算猪的流派

我处理movielensdata提供的数据集movies.dat。前五行数据是1:玩具总动员(1995):冒险|动画|儿童|喜剧|幻想2:Jumanji(1995):冒险|儿童|幻想3:......

回答 1 投票 1

YARN的容器是什么?

YARN的容器是什么?它是与nodemanager上运行的任务运行的子JVM相同还是不同?

回答 9 投票 33

如何减少查询中的容器数量

我有一个查询使用了很多容器和大量内存。 (使用的内存的97%)。有没有办法设置查询中使用的容器数量并限制最大内存?查询正在运行...

回答 1 投票 1

好的MapReduce示例[关闭]

除了“如何使用MapReduce计算长文本中的单词”任务之外,我想不出任何好的例子。我发现这并不是给别人一个这么强大的印象的最好例子......

回答 4 投票 193

如何在scala中的数据框中对多列进行mapreduce?

我的火花数据框如下所示:+ ------- + ------ + ------- + ------ + ------ + | userid1 | time | userid2 | name1 | name2 | + ------- + ------ + ------- + ------ + ------ + | 23 | 1 | 33 | user1 | user2 | | 23 ......

回答 1 投票 -1

在通过oozie运行配置单元操作时如何解决问题 - “与Thrift服务器通信时出现未知的HS2问题。”

我正在运行两个shell脚本和十二个hive操作作为数据迁移任务。我正在使用oozie安排这些。虽然我将工作测试为干运行,但工作有时会部分执行...

回答 1 投票 0

Apache Giraph - 无法在拆分主/工作模式下运行,因为一次只能执行1个任务

我在这里使用PageRank Benchmark示例运行了带有hadoop 2.2.0的Giraph 1.0.0。突然我得到了这个错误结果:线程“main”中的异常java.lang.IllegalArgumentException:...

回答 1 投票 4

如何通过条件列对spark数据集组进行map reduce?

我的火花数据框如下所示:+ ------ + ------ + ------- + ------ + | userid | useid1 | userid2 |得分| + ------ + ------ + ------- + ------ + | 23 | null | dsad | 3 | | 11 | 44 | null | 4 | | 231 | ...

回答 3 投票 0

如何在mapReduce Hadoop框架中对值(及其对应的键)进行排序?

我正在尝试使用Hadoop mapReduce对输入数据进行排序。问题是我只能按键对键值对进行排序,而我正在尝试按值对它们进行排序。每个值的关键是......

回答 1 投票 0

Pyspark collectAsMap()UDAF替代 - 无法序列化对象:Py4JError:调用o62时发生错误.__ getstate__ [重复]

我正在尝试将聚合函数应用于pyspark中的列。上下文是我手边只有Spark 2.2,没有选择使用矢量化pandas_udf sdt = spark.createDataFrame(zip([random ....

回答 1 投票 -1

如何使用带有hadoop流的docker工具箱来解决多节点集群的地图缩减问题

我能够使用单个节点来解决使用docker的map reduce问题。但现在对于多节点我需要与另一台PC连接。如何获取作为我的从属节点的其他计算机的IP地址...

回答 1 投票 0

Hadoop Mapreduce错误输入路径不存在:hdfs:// localhost:54310 / user / hduser / input“

我在Ubuntu Linux 15.04中安装了hadoop 2.6,运行正常。但是,当我运行示例测试mapreduce程序时,它给出以下错误:org.apache.hadoop.mapreduce.lib.input ....

回答 8 投票 6

可写和可写在Hadoop中的可比性?

任何人都可以解释一下:Hadoop中什么是可写和可写的可比接口?这两者有什么不同?请举例说明。提前致谢,

回答 3 投票 15

mongoDB聚合查询以相反的顺序返回结果

我在mongoDB上的聚合管道就像。 db.assets.aggregate([{ “$匹配”:{ “$或”:[{ “相册”:{ “$ elemMatch”:{ “ID”: “78c72b85944e5085a4a3be77a2d175fe”, “订单”:{ “$ GT”: “C2”}}}},{ “相册”:{ “$ elemMatch”:{” ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.