mapreduce 相关问题

MapReduce是一种使用大量节点处理某些类型的可分发问题的大型数据集的算法

如何在PouchDB mapreduce中按长度对密钥进行排序?

我正在开发一个React应用,以搜索IPFS中托管的集合。我正在使用PouchDB来存储路径和IPFS ID之间的映射。我正在使用的界面是自动完成的。每个...

回答 1 投票 0

MongoDB中的MapReduce-按类别计数

我有一个Mongo数据库,该数据库的集合包含如下项目:这是我的作业:输出示例:到目前为止,这是我所拥有的,但是我真的迷失了mapreduce函数db.dvdrent.mapReduce(...

回答 1 投票 0

JavaScript数组:按2个分组查询数组:卡在reduce()javascript问题中

我对reduce()函数有问题。假设我有这个数组:myOrders = [{order_date:'2019/12/01',order_type:'Shoes',order_amount:50},{order_date:'2019/12/01',...

回答 2 投票 -1

has_many关系上的Mongoid简单Map / Reduce

在Rails应用中,我有一个事件集合,其中包含每个事件的受邀者列表。我希望将整个被邀请者列表作为一个统一列表。不能使用简单的.map,因为...

回答 1 投票 0

MapReduce主流程如何决定将哪个任务分配给单个工作流程?

此问题将不会讨论Hadoop或Spark中的特定情况。当我阅读《 MapReduce:大型集群上的简化数据处理》时,我很困惑,因为Master会选择空闲...

回答 1 投票 -1

mapreduce文件传输实现

如何实现通过map-reduce传输文件?为此,我需要在mapper,reducer和job的输入输出中设置哪些参数?

回答 1 投票 0

在Dataproc的群集中查找Hadoop流传输jar

因此,我想在Dataproc集群上运行Python map reduce作业,问题是我找不到需要提交到Main类或jar输入中的Hadoop流jar文件。我正在使用...

回答 1 投票 2

Hadoop:如何创建自动增量ID

我需要在hadoop中使用SQL等效于AUTO_INCREMENT id。当我的reduce任务标识一个新项目时,这些项目需要分配一个唯一的ID。如何在整个群集中共享一个原子计数器? ...

回答 1 投票 3

为什么将配置单元和化简器的数量设置为1,但配置单元仍将2个零件文件写入hdfs

我有一个配置单元插入覆盖查询-设置mapred.map.tasks = 1;设置mapred.reduce.tasks = 1;插入覆盖表staging.table1 partition(dt)从testing.table1选择*;当我检查HDFS时...

回答 1 投票 0

Couchdb视图不适用于多个过滤器

Couchdb视图文档不适用于多个过滤器。这些是我的示例文档{“ _id”:“ test_1234”,“ _rev”:“ 1-ff074e2f5a6e1c4e036703524fcebca3”,“ data”:{“ userid”:1,“ year”:...

回答 1 投票 0

针对txt文件中特定列的字数统计映射

我有映射器和归约器代码,可在文本文件中找到最常用的单词。我想在我的文本文件的特定列中输出最常用的单词。 txt文件中的列名...

回答 1 投票 1

分布式休息电话和总价

我有一个用例,需要从Web Rest服务加载大数据的客户端。该REST API具有高度的可扩展性,在处理超过10000个并发请求时,显然没有问题。 ...

回答 1 投票 0

存储在HBase表中的R树索引-可行吗?

因此,我已经阅读了很多有关索引,本地,全局,分布式,基于HDFS的,空间hadoop的东西,我想知道是否适当时机存储从输入创建的R树索引...

回答 1 投票 0

我如何在我的Mapper和Reducer中使用此代码?我想在Google集群中运行此代码

在此代码中,我生成了随机数,然后求出该数的概率并用直方图确定。但现在我想在mapreduce中运行此代码。我如何创建mapper.py ...

回答 1 投票 -2

我如何使用python在mapreduce中得到直方图(Graph)的结果?

[当我运行这段代码时,我在群集的精简部分中遇到了错误。我采用概率并使用Matplotlib将输出图形化,但会失败。我正在Google上运行此代码...

回答 1 投票 0

多行文本到一张地图

我一直在尝试使用Hadoop将N条线发送到单个映射。我不需要将行拆分。我尝试使用NLineInputFormat,但是会发送N行...

回答 3 投票 7

如何避免在Spark中嵌套地图调用?

我有一个交易清单,用户可以将一个板子从一个站点转移到另一个站点。这是一个数组,称为trans:板:用户:站:操作:时间:[['1','Ana','Tribeca'...

回答 1 投票 0

MapReduce和Hive,Hadoop

对于此问题,请使用以下数据集和方法:数据集:〜rose / public_html / 590B / airline / 200X.csv,其中X为0、2、3、4、5、6、7或8注意:我们不包括2001.csv ...

回答 1 投票 -1

如何使数据流Apache Beam工作更快

我有一个apache束工作,大约需要6个多小时才能完成。我们摄取了大约2.7Tb的GCS数据以及其他数据源(例如Bigtable / Bq / etc),然后执行CoGroupbyKey.create()。 GCS ...

回答 1 投票 0

Intellij:MapReduce错误:线程“ main”中发生异常0:无此类文件或目录

我一直在研究map reduce程序,它在虚拟机的hadoop hdfs环境中运行良好。但是,当我使用Intellij在Windows中尝试相同的程序时,出现此错误。 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.