mapreduce 相关问题

MapReduce是一种使用大量节点处理某些类型的可分发问题的大型数据集的算法

DolphinDB函数mr的ds如何重新分区?

我有一个包含两级分区的分区表。第一层是按天的时间分区,第二层是股票代码的HASH分区。现在我想处理

回答 1 投票 0

Map/Reduce 类管道的最佳工具。使用生成文件? [关闭]

当前管道状态 在我的团队中,我们正在用 Python 进行数据分析,我们遇到的问题之一是如何编写/执行管道。目前,每个人都在编写他们的管道

回答 0 投票 0

计算单个 Hadoop 作业中的单个单词频率和单词对

我正在尝试在单个 Hadoop 作业中执行以下操作: 这是一个示例文本:巴黎公社是一个从 3 月 18 日(更正式地说,从 3 月 28 日)到 1871 年 5 月 28 日短暂统治巴黎的政府....

回答 0 投票 0

具有输入大小的 Hadoop mapreduce ~ 2Mb 慢

我尝试使用 hadoop 分发计算。 我正在使用序列输入和输出文件以及自定义可写文件。 输入是三角形列表,最大大小为 2Mb,但可以小于 5...

回答 3 投票 0

Mapper类中静态字段引起的NullPointerException

我有一个 HBase MapReduce Bulkload 应用程序,其中包含一个自定义的 MyMapper 类,它有一个在应用程序运行期间使用的静态字段解析器,当我配置作业时,我使用 ...

回答 1 投票 0

字数统计应用程序未在 hadoop 上运行

这是我第一次使用 hadoop,所以我开始使用基本程序,即字数统计。在我的本地机器上它工作得很好。真正的问题是我无法在

回答 1 投票 0

当我尝试在 dplyr group_map 函数中使用 defuse-inject 模式时失败

以下是我想要实现的示例。 图书馆(dplyr) tbl.数据<- tidyquant::tq_get(c("GS", "C", "BAC")) to.xts <- function(group, group_key,

回答 3 投票 0

如何在hadoop流中跳过失败的地图任务?

我正在运行一个hadoop流式mapreduce作业,它总共有26895个map任务。但是,有一个处理某个输入的任务总是失败。所以我设置mapreduce.map.failures.maxpercent=1,并想 ...

回答 1 投票 3

Hive : Tez如何增加AM容器的内存?

我试图运行一个hive查询,设置yarn.nodemanager.vmem-check-enabled=false; 设置hive.strict.checks.cartesian.product=false; select count(*) from db1.tb1 a where a.col1='2015-07-13' and a.col2=' ...

回答 1 投票 0

MapReduce图灵完备吗?

关于MapReduce框架和图灵完备性,我有两个问题。首先,由于MapReduce不是一种实际的编程语言(它更像是一套处理数据的规则),......

回答 1 投票 3

当key在循环中的值等于key时,在for循环外访问key的值。

我有两个字典列表: sftoap = [{'0060z000023GQYKAA4': 'ID-2522'}, {'0060z000023GQZNAA4': 'ID-2523'}, {'0060z000023GQidAAG': 'ID-2524'}] opp_products = [{'Opportunity_ID__c': '...

回答 2 投票 0

在scala上使用hadoop有哪些选择?

We are starting a big-data based analytic project and we are considering to adopt scala (typesafe stack).I would like to know various scala API'sprojects which are available to do hadoop , map reduce programs. 我想知道各种scala API'sprojects哪些是可以做hadoop,map ...

回答 5 投票 24

Java Map Reduce Split方法

假设我们有一个像下面这样的.csv文件。国家,num1,num2,备注 美国,1,1,字符串1 美国,1,2, "字符串2,字符串3,字符串1 "我需要拆分每一行的Map-Reduce任务。的 "问题",因为你...

回答 1 投票 0

从hadoop1迁移到hadoop2后,如何恢复hadoop Map reduce作业的性能?

从hadoop 1.0.3 ->hadoop 2.8.5迁移后,Hadoop Map reduce作业性能(执行作业时间)下降(5min->15min),详情如下。我有Hadoop Map reduce作业在AWS EMR中执行。

回答 1 投票 0

将MongoDB中的聚合操作翻译成MapReduce。

几天来,我一直试图将这个查询翻译成MapReduce。具体来说,我需要计算出有多少辆不同的汽车行驶了 "N "公里。查询:db.adsb.group({ "key": { ...

回答 1 投票 1

part-r-00000没有这样的文件或目录。

我试图运行AggregateWordCount这个例子,但我得到了这个错误,当我使用这个代码运行Wordcount时,一切都很正常。!binbash # 通过运行wordcount测试hadoop集群 # ...

回答 1 投票 0

如果数据太大,需要1个减速器(RHadoop)怎么办?

我是大数据和Hadoop的新手。我试着用mapreduce找中位数。据我所知,maper将数据传递给1个reducer,然后1个reducer排序,并使用median()函数找到中间值。R ...

回答 1 投票 0

将array_column与preg_match结合使用。

假设我们有一个数组,需要将其转换为行 From this: Array ( [subject] => Array ( [0] => EDN:LOC:DERR [1] => EDN:LOC:...)

回答 1 投票 0

如何创建一个日期计数器? 我试过使用reduce函数

使用id,billStatus和tDate需要做一个daycounter,计算收到线索的日期。例子 => 对于id: "1" 2 Billable against 8th of May AND 3 Billable for 9th of May than day ....

回答 1 投票 0

WARN hdfs.DFSClient.DataStreamer Exception org.apache.hadoop.ipc.RemoteException(java.io.IOException):WARN hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(java.io.IOException)。文件inrecipeitems-latest.json.ingeing_。

当我试图将json从本地路径复制到Hadoop文件分布式系统时,我遇到了一个问题。我已经按照这个链接http:/www.codeproject.com......中给出的步骤进行了编码。

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.