hadoop-streaming 相关问题

Hadoop流是一种实用程序,它允许使用从标准输入读取的任何可执行文件和写入标准输出来运行map-reduce作业。

Hadoop的命令来查找名称节点中的一个节点

我试着步骤 - 登录到特定的节点 - 并执行命令JPS结果5144 JobTracker的4953 NameNode的5079 SecondaryNameNode 5216 JPS这是工作正常,但我知道什么其他...

回答 3 投票 0

什么是流媒体的Hadoop YARN version命令行选项可能的完整列表?

我是通过Hadoop的网站浏览,发现下面的链接Hadoop的数据流。 https://hadoop.apache.org/docs/current1/streaming.html但是,我更感兴趣的是Hadoop的纱(MRv2) - ...

回答 1 投票 1

无法重新启动Kafka Consumer Application,由于OffsetOutOfRangeException而失败

目前,我的Kafka Consumer流应用程序手动将偏移量提交到Kafka,并将enable.auto.commit设置为false。当我尝试重新启动它时,应用程序失败了......

回答 1 投票 1

如何在Hadoop Streaming中处理具有不同inputformats的2个文件?

我有2个不同格式的文件。一个是SequenceFileInputFormat,另一个是TextInputFormat。我知道对于Hadoop Streaming,有可能指定2个输入文件,如:hadoop jar ...

回答 1 投票 0

Hadoop流式多线输入

我正在使用Dumbo进行一些Hadoop Streaming作业。我有一堆JSON词典,每个词典都包含一篇文章(多行文本)和一些元数据。我知道Hadoop在提供大文件时性能最佳,...

回答 2 投票 1

限制hadoop数据集中的文件(块)数量?

我有一个hadoop数据集被分成太多数据块的问题。鉴于已经存在的hadoop数据集,有没有办法将其块组合成更少但更大的块?有没有 ...

回答 2 投票 3

如何使用Parquet查看器查看大文件

我试图打开一个大小为96MB的大型镶木地板文件时出现OutOfMemory Error。是否有任何可配置选项可以更改JVM参数或任何其他基于流的方法。我们需要csv文件......

回答 1 投票 0

Hadoop MapReduce(使用Python)在Pandas DataFrame上启动KeyError

我正在尝试使用MapReduce处理数据帧。我最初为mapper创建了脚本,并尝试从本地终端运行它,它运行正常:mapper.py import sys import ...

回答 1 投票 1

hadoop,python,subprocess失败,代码为127

我正在尝试使用mapreduce运行非常简单的任务。 mapper.py:#!/ usr / bin / env python导入sys.stdin中的行sys:print line my txt file:qwerty asdfgh zxc运行作业的命令行:...

回答 3 投票 3

如何解决java.lang.RuntimeException:PipeMapRed.waitOutputThreads():子进程失败,代码为2?

我试图在Hadoop环境中执行NLTK。以下是我用于执行的命令。 bin / hadoop jar $ HADOOP_HOME / contrib / streaming / hadoop-streaming-1.0.4.jar -input / user / nltk / ...

回答 4 投票 4

hadoop / usr / bin / env:python:没有这样的文件或目录

我正在尝试使用shell脚本中的以下命令运行hadoop流服务器hadoop jar /usr/local/hadoop/contrib/streaming/hadoop-0.19.2-streaming.jar -input $ 1 -output Twitter / Net ....

回答 1 投票 0

R从Shell安装包

我正在尝试使用R实现Hadoop Streaming的reducer。但是,我需要找到一种方法来访问某些不是用R,dplyr..etc构建的库。基于我的研究似乎......

回答 2 投票 9

未找到拆分类org.apache.hadoop.hive.ql.io.orc.OrcSplit

我正在尝试使用orc作为输入格式的hadoop流这里是我如何运行它导出HADOOP_CLASSPATH = / opt / cloudera / parcels / CDH / lib / hive / lib / hive-exec.jar hadoop jar / opt / cloudera / parcels / CDH / lib中/ ...

回答 2 投票 1

Hadoop流访问目录中的文件

我想访问Hadoop中的一个目录(通过Python流)并循环遍历其图像文件,计算我的映射器中每个的哈希值。以下逻辑是否有意义(而不是硬编码,......

回答 2 投票 3

使用shell脚本的Hadoop流:reducer因错误而失败:没有这样的文件或目录

我正在使用10节点HDP集群,我试图在Bash上使用shell脚本运行一个简单的WordCount作业.Below是我正在使用的Commmand行参数。纱瓶/usr/hdp/2.6.5.0-292/hadoop -...

回答 1 投票 0

Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1, 在本地完美运行

我在每个论坛上用谷歌搜索了这个错误,但没有运气。我收到下面写的错误: 18/08/29 00:24:53 INFO mapreduce.Job:地图 0% 减少 0% 18/08/29 00:24:59 INFO mapreduce.Job: Tas...

回答 3 投票 0

在Google Cloud Dataproc环境中使用Hadoop流运行python map reduce job时出错

我想使用hadoop流方法在Google Cloud Dataproc中运行python map reduce作业。我的地图缩小python脚本,输入文件和作业结果输出位于Google云端存储中。我试过了 ...

回答 1 投票 1

snappy文件上的hadoop python作业产生0大小的输出

当我在文本文件上使用hadoop流运行wordcount.py(python mrjob http://mrjob.readthedocs.org/en/latest/guides/quickstart.html#writing-your-first-job)时,它会给我输出,但当......

回答 2 投票 1

Hadoop Streaming永远不会完成

我正在尝试学习如何使用hadoop流媒体。我正在尝试运行一个非常简单的映射器,而不是减速器。当我运行该程序时,它完成了100%的地图任务,然后对10执行任何操作......

回答 2 投票 2

R-Hive流中出错

我正在使用Hive和R来为大型数据集上的机器学习模型打分。但是代码出现以下错误。我已经在我的本地测试了R脚本的任何错误...

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.