mapreduce 相关问题

MapReduce是一种使用大量节点处理某些类型的可分发问题的大型数据集的算法

我的连接映射器代码有什么问题?

我正在尝试练习使用mapreduce连接数据,但是当我运行这一行时 猫 join1_File*.txt | ./join1_mapper.py |排序| ./join1_reducer.py 它显示此错误: 追溯(最近的校准...

回答 1 投票 0

mapreduce 的缺点是什么?

mapreduce 的缺点是什么? MapReduce 有很多优点。但我也想知道mapreduce的缺点。

回答 5 投票 0

由于连接问题,YARN 作业失败

我在 Kubernetes 集群中设置了 hadoop-3.3.6,所有 hadoop 组件都通过 ClusterIP 服务公开,我能够 telnet 到各个 pod 公开的端口。但当我...

回答 1 投票 0

需要比 MMDS 更好的解释 MapReduce 的通信成本模型

我正在浏览 MMDS 书籍,该书有一个同名的在线 MOOC。我无法理解主题 2.5 中提到的通信成本模型和连接操作计算,并且

回答 1 投票 0

MongoDB allowedDiskUse 不起作用..

专家。 我是 MongoDB 的新手,但了解得足够多,这会让我自己陷入麻烦......举个例子: db.test.aggregate( [ {$group: {_id: {电子邮件: "$email", 性别: "$gender"}, cnt: {$sum: 1}}}, {$gr...

回答 4 投票 0

异常消息:“/tmp/hadoop-Deepshikha”不被识别为内部或外部命令、可操作程序或批处理文件

当我运行字数统计问题时,我收到此错误 C:\hadoopsetup\hadoop-3.2.4\sbin>hadoop jar C:\hadoopsetup\hadoop-3.2.4\share\hadoop\mapreduce\hadoop-mapreduce-examples-3.2.4.jar wordc...

回答 1 投票 0

使用 hadoop 字数统计显示输出时出现问题

我是 Hadoop 的新手,我想使用 WordCount 执行 Hadoop 语法来统计单词数。但是,为什么当我尝试显示输出时,它没有出现?我希望得到解释...

回答 1 投票 0

Windows 上的 hadoop 中启动容器时出错

我正在 Windows 上运行地图缩减作业,它给了我这个错误。说明容器启动出现异常。 堆栈跟踪:ExitCodeException exitCode=1:“/tmp/hadoop-user”不是

回答 1 投票 0

Hive“从表名中选择 to_date(第 2 列)”

我有以下表格结构: 表名:测试 表结构:这里的col1和col2是字符串。 第 1 列 列2 “abc” “2016 年 4 月 15 日” “定义” “2016 年 5 月 31 日” 什...

回答 1 投票 0

pyspark RDD 计算 DAG 中的节点数

我有RDD,显示为 [“2{'3':1}”, "3 {'2': 2}", "4 {'1': 1,'2': 1}", "5 {'4': 3,'2': 1,'6': 1}", "6 {'2': 1,'5': 2}", “……

回答 1 投票 0

在蜂巢中查找排名

我有一组数据 亚历克斯,50 阿努, 85 利米, 41 萨姆,56 我需要找到学生的排名并将其存储在带有排名的另一列中 例如:- 亚历克斯 50 3 阿努 85 1 利米 41 4 萨姆 56 2...

回答 1 投票 0

类型错误:无法解压不可迭代的浮点对象 - MapReduce - mrjob

我正在测试一个简单的例子来了解MapReduce和mrjob。 目标是将所有数字的对数相加,并将所有数字的计数除以该总和。 代码很简单...

回答 1 投票 0

NoClassDefFoundError:org/apache/hadoop/yarn/util/Clock

运行WordCount命令时出现一些错误: 2023-10-06 15:55:35,005 INFO mapreduce.Job:作业 job_1696606856991_0001 在 uber 模式下运行:false 2023-10-06 15:55:35,006 INFO mapreduce.Job:地图 0% ...

回答 1 投票 0

“信息:Tez 会话尚未创建。正在打开会话”挂起

我正在使用 HDP 2.3.0.0-2557,我正在尝试运行如下所示的配置单元查询: 直线> !connect jdbc:hive2://localhost:10000 连接到 jdbc:hive2://localhost:10000 输入用户名...

回答 2 投票 0

基本配置单元插入作业无法工作,出现错误“容器以非零退出代码 127 退出。错误文件:prelaunch.err。”

hive> 插入 test.emp (sr_no,usr_name,city) 值 (10,"Prince","Kathmandu"); 查询 ID = Princemehta_20230311033859_3d7f53f2-3523-4a8b-840d-fcb6aa8729cd 职位总数 = 3

回答 3 投票 0

MapReduce 框架输出列表与完全确定值

我对MapReduce的初步理解是,它是为了解决reduce函数的输出与reduce函数的输入兼容的问题而设计的,这样就可以称为repea...

回答 1 投票 0

如何调试传递给mapPartitions的函数

如何处理无法使用传递给 pyspark 中的 mapPartitions() 的函数内的 print 语句调试代码的问题? 考虑这个例子: def func(kv_iterator): 为了...

回答 1 投票 0

Hive 数据量增加时左连接中未连接 da

在这个hive sql中,当table1数据量很大的时候,t2.c会丢失,但是应该join,这在mapreduce层面怎么解释呢? 选择 t1.a, t1.b, t2.c 从 表1 t1 左

回答 1 投票 0

具有远程 (AWS S3) 目标的 Makefile

我想创建一个 makefile,其中目标和依赖项不是本地文件,而是位于某个 AWS/S3 存储桶中。 考虑以下示例,该示例将简单地复制 'data_r...

回答 2 投票 0

MongoDB 存储过程等效

我有一个大型 CSV 文件,其中包含商店列表,其中一个字段是邮政编码。 我有一个名为 ZipCodes 的独立 MongoDB 数据库,它存储任何给定的纬度和经度...

回答 4 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.