mapreduce 相关问题

MapReduce是一种使用大量节点处理某些类型的可分发问题的大型数据集的算法

apache pig count sort

我正在阅读猪的apache日志,它计算了ip的总连接数。 A = LOAD'access.log'使用PigStorage('')为(f0:chararray,f1:chararray,f2:chararray,f3:chararray,f4:chararray,f5:...

回答 1 投票 3

Hadoop Map减少代码的前N个值

我是hadoop世界的新手,并努力完成一项简单的任务。任何人都可以通过仅使用Map reduce代码技术告诉我如何获得字数计数的前n个值?我不 ...

回答 1 投票 14

MRJob在Python中排序

我有一项任务,要求我在python中使用mapper / reducer来完成客户数据的MapReduce。我有一个CSV文件,其中包含CustomerID,ProductID和已用金额。第一项任务......

回答 1 投票 1

如何更改sqoop导入临时目录

sqoop import ...默认情况下会将所有数据放入临时表目录,然后再将其发送到target_directory。在我的情况下,这个临时目录默认为hdfs:/// user /目录。怎么样 ...

回答 1 投票 0

在python中为Hadoop Map Reduce创建自定义可写键/值类型?

我已经在Hadoop MR上工作了很长时间,我创建并使用了包括MapWritable在内的自定义(扩展)可写类。现在我需要翻译我写的相同的MR ...

回答 1 投票 1

仅限地图作业的默认分隔符

如何在MapReduce范例中更改Map Only作业的默认键值分隔符?它给出了输出,其中来自映射器的键和值由“\ t”分隔,但我需要将此分隔符更改为...

回答 1 投票 0

如何使用mongodb mapreduce计算简单移动平均线?

我在mongodb集合中有以下格式的时间序列数据:{“名称”:“AKBNK”,“日期”:ISODate(“2009-01-02T00:00:00Z”),“关闭”:3.256746559,}我想要计算简单......

回答 1 投票 1

使用Hbase RowCounter时找不到方法

我的问题是关于我/如何在独立的hbase中使用mapreduce.RowCounter。我在没有hadoop的docker中运行一个独立的hbase(1.3.1)。为了使用rowCounter,我下载并放入jar ...

回答 1 投票 0

Hadoop Map Reduce - Iterable上的嵌套循环 reduce中的值忽略将文本写入上下文时的文本结果

我是hadoop的新手,我试图在一个简单的输入文件上运行map reduce(参见示例)。我试图用一个属性列表制作某种笛卡尔积,使用两个for循环和...

回答 1 投票 0

有没有办法在Scalding中指定映射器的数量?

我是新生的烫伤世界。我的烫伤工作将有多个阶段,我需要单独调整每个阶段。我发现我们可以通过使用...来改变减速器的数量

回答 1 投票 0

反应,排序和对象数组(缩小和映射?)

问题如下:(https://codesandbox.io/s/8p21n6p09l)我有一个对象数组(称为模块),看起来像这样:const modules = [{thematicArea:“Topic 1”,id: 1,......

回答 3 投票 1

Hadoop map减少了java

public static class TokenizerMapper extends Mapper {public void map(Object key,Text value,Context context)抛出IOException,InterruptedException {...

回答 1 投票 -1

mapreduce c编程无法与-fPIC链接,如何修复?

我有一个示例程序如下,w.cpp在ubuntu 18.04上使用g ++ 7.3.0 #include #包括 #包括 #include“stdint.h”#include“Pipes.hh”#include“......

回答 1 投票 0

如何比较Hive对MR工作绩效的影响?

了解两个查询中哪一个在同一个集群中最快但与当时集群使用无关的最佳方法是什么?如果第一个查询运行时,持续时间将不准确...

回答 1 投票 0

Hive查询基于多个可选键分配分组键

我们有一个带有三个不同ID的Hive表,都是可选的。在每行中,必须提供三个ID中的至少一个。如果提供了多个ID,则建立了...之间的等价

回答 1 投票 1

如何在MR作业中配置映射以批量执行?

Map-reduce作业生成几个映射器并在Yarn中运行。如何批量运行这些映射器。假设MR作业产生了100个地图,如何一次只运行10个以及如何配置下一个10个地图...

回答 1 投票 0

Hadoop MapReduce输出最大化

我目前正在使用Eclipse和Hadoop创建一个mapper和reducer来查找航空公司数据集的最大总成本。所以总成本是十进制值,航空公司承运人是文本。数据集......

回答 1 投票 -1

Hadoop发行版

我通过我研究的大学提供的VNC软件(远程访问)使用IBM的大量见解,但我无法通过该桌面访问Internet。要使用互联网上的一些数据样本,我...

回答 1 投票 0

在python中尝试使用mapreduce的程序,并需要一些帮助

为了获得更多实践经验,我想尝试项目字数。这是我的样本数据。联合国(UN)是一个于10月24日成立的政府间组织......

回答 3 投票 -3

蜂巢开始失败

我的本地主机上运行了一个hadoop。我尝试在我的localhost上设置配置单元并安装配置单元。当我在终端上放置蜂巢时,跟随错误即将到来/ ade:[ashsshar_bda_latest_2] [...

回答 6 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.