mapreduce 相关问题

MapReduce是一种使用大量节点处理某些类型的可分发问题的大型数据集的算法

什么时候在Hadoop中启动shuffle

我有什么时候洗牌开始的问题。假设我有2个映射器和1个减速器。每个映射器将生成输出map1和map2。这个map1和map2存储在各自的临时磁盘中......

回答 3 投票 0

Hadoop Mapper参数含义

我是Hadoop的新手并且对参数有疑问:对于单词计数示例,请参阅下面的代码片段:public static class TokenizerMapper extends Mapper

回答 1 投票 1

最佳MapReduce算法,用于计算每个重叠间隔的数量

格式[a,b]中有数十亿个间隔,所有这些间隔都会将数字空间切割成多个单个部分。我打算输出所有具有重叠间隔数的单件......

回答 2 投票 0

如何在MapReduce作业中以拼花文件格式编写输出?

我希望使用parquet-mr库在镶木地板文件格式中编写MapReduce输出,如下所示:job.setInputFormatClass(TextInputFormat.class);工作....

回答 1 投票 0

纱线应用的持续时间登录hadoop

我在hadoop中使用yarn应用程序命令的输出来了解使用作业名称运行的mapreduce作业的详细信息。我的群集正在使用HDP分发。是......

回答 1 投票 0

Python - Mapreduce - PermissionError:[WinError 5]访问被拒绝

我收到此错误,我尝试了管理员权限,打开管理员,UAC关闭..但仍然是同样的问题,任何人都可以告诉我有什么问题?我从终端传递2个文件movies2.csv和ratings2..csv ...

回答 1 投票 -4

如何通过识别python Hadoop中的键来处理Mapreduce

我有两个来自map函数的关键值:NY和Others。所以,我的关键输出是:NY 1,或者其他1.只有这两种情况。我的地图功能:#!/ usr / bin / env python import sys import ...

回答 1 投票 0

是_logs / skip /与hadoop版本相关吗?

我正在做关于MapReduce任务失败的项目。根据Hadoop Beginner的Gudie(Garry Tukington),所有跳过数据都存储在_logs / skip /文件夹中。作者使用了Hadoop 1.0版本。我是 ...

回答 1 投票 0

在hadoop中运行此程序时出错

我正在尝试在Hadoop中编写这个map reduce程序,它计算任何特定用户从twitter转储中发布的字数。这是我的代码:我相信我的mapper中有错误...

回答 1 投票 -2

用Java读取HDFS和本地文件

我想读取文件路径,无论它们是HDFS还是本地路径。目前,我传递带有前缀file://的本地路径和带有前缀hdfs://的HDFS路径,并将一些代码写为...

回答 3 投票 18

有没有人有一个hive错误代码列表?

有没有人有蜂巢错误代码列表?例如,如果我们在配置单元中找到一个未找到表的错误,则为“echo $?”的值将是17。

回答 1 投票 3

将MR作业提交给具有不同ID的Hadoop集群

我们可以将MR作业提交给hadoop集群的最佳方式是什么?场景:开发人员有自己的id,例如dev-user1,dev-user2等.Hadoop集群有各种各样的id ...

回答 1 投票 -1

mongoDB mapreduce需要很长时间才能运行3m文件

我有一个包含300万份文件的集合。每个文档有40个字段。字段如下。 {“b_date”:“2016-04-05”,“d_date”:“2016-06-25”,“pos”:“MISC”,“origin”......

回答 1 投票 2

在Hadoop中链接多个MapReduce作业

在许多应用MapReduce的实际情况中,最终的算法最终会成为几个MapReduce步骤。即Map1,Reduce1,Map2,Reduce2等。所以你有...的输出

回答 13 投票 118

我可以使Mongo map减少计数对象的多个值吗?

我有一个我想要映射的集合,按ID和日期缩小,以生成商店和在线销售产品的图表。为每个事务创建一个新对象,所以我想减少...

回答 1 投票 1

如何在hadoop环境中添加外部Jar?

我在运行map reduce工作时遇到了一些问题。我使用JSON jar来处理HDFS中的JSON文件并编写了逻辑,但是在运行作业时遇到错误(无法...

回答 3 投票 0

在spark中设置textinputformat.record.delimiter

在Spark中,可以设置一些hadoop配置设置,例如, System.setProperty(“spark.hadoop.dfs.replication”,“1”)这个工作,复制因子设置为1.假设...

回答 1 投票 5

MongoDB C#驱动程序2.0:如何从MapReduceAsync获取结果

MongoDB C#驱动程序2.0:如何从MapReduceAsync获取结果我正在使用MongoDB版本3,C#驱动程序2.0并且将获得MapReduceAsync方法的结果。我有这个集合“用户”:{“_ id”...

回答 1 投票 3

在reduce阶段之后合并输出文件

在mapreduce中,每个reduce任务将其输出写入名为part-r-nnnnn的文件,其中nnnnn是与reduce任务关联的分区ID。 map / reduce是否合并这些文件?如果有,怎么样?

回答 10 投票 73

线程“main”中的异常org.apache.Hadoop.mapred.InvalidJobConfException:未在JobConf中设置输出目录

我是新的Hadoop用户。我的程序是跳过mapreduce中的错误记录数据。我没有跳过坏数据所以首先,我不是试图跳过数据,我想找到发生的错误。所以,我补充说......

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.