hadoop2 相关问题

Hadoop 2代表了非常流行的开源分布式平台Apache Hadoop的第二代。

如何在mapreduce中编写自定义输出文件格式

请建议我如何将输出fileformat(part-r-00000)(默认文件格式)更新为另一种文件格式,如csv或txt文件格式的map reduce程序。

回答 2 投票 -2

运行“hbase org.apache.hadoop.hbase.mapreduce.Import”时出现行长度为0的问题

我想将一个表从hbase版本0.98群集复制到hbase版本1.2.0-cdh5.7.3群集。运行命令:hbase org.apache.hadoop.hbase.mapreduce.Import -Dmapreduce.job.queuename = -Dhbase ....

回答 1 投票 0

提高ORC文件的配置单元的写入速度

目前插入覆盖表T1从T2中选择*;在我的群集中大约需要100分钟。表T1是ORC格式的,T2是文本格式。我正在从T2读取60 GB的文本数据...

回答 2 投票 2

为什么Hadoop需要那么多的RAM?

Hadoop容器需要更多的RAM,数据大小itsef(我用于测试0.5GB大小的数据)实际上是它的两倍,为什么它太多了?什么是物理记忆的概念和......

回答 1 投票 1

如何编写映射的输出将作业直接减少到分布式缓存,以便将其传递给另一个作业

我目前正在练习Map-reduce(Hadoop 2.2),并且需要您对其中一个概念的帮助。我有一个用例,我想用两个工作来完成。我想将job1的输出写入...

回答 3 投票 3

HDFS错误放置:`input':没有这样的文件或目录

我已经安装了hadoop 2.6.0,我正在玩它。我正在尝试伪分布式设置,我正按照http://hadoop.apache.org/docs/current/hadoop-project-dist / ...上的说明进行操作。

回答 7 投票 6

Ambari Hadoop Spark群集防火墙问题

我刚刚推出了Hadoop / Spark集群,以便在我的公司启动数据科学计划。我使用Ambari作为经理并安装了Hortonworks发行版(HDFS 2.7.3,Hive 1 ....

回答 1 投票 0

ApplicationMaster退出代码杀死的容器是143

我在几种情况下遇到以下错误:2017-03-23 11:55:10,794 INFO [AsyncDispatcher事件处理程序] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:诊断报告.. 。

回答 2 投票 3

HBase表???表声明为外部表时不存在

我正在尝试使用Hive创建一个HBase表(我打算使用insert从另一个Hive表填充它),通过以下内容:CREATE EXTERNAL TABLE HBWeather(key struct)

回答 2 投票 0

使用基于会话的令牌身份验证将数据从hdfs移动到s3

在将数据从hdfs移动到S3时,有人可以帮助我进行身份验证。要连接到S3,我使用aws_key_gen(access_key,secret_key和session ...)生成基于会话的凭据。

回答 1 投票 2

Map-Reduce作业无法提供预期的分区文件

在Map-Reduce作业中,我使用五个不同的文件,其中我的数据集中包含两个类别P和I下的值。在找到特定值后,我将这些传递给I-part-r-00000文件...

回答 1 投票 0

使用load命令将数据加载到hive静态分区表

请不要介意,如果它是一个非常基本的:test.txt 1 ravi 100 hyd 2 krishna 200 hyd 3 fff 300秒我已经在城市中创建了一个带有分区的表,并加载了如下数据:创建...

回答 3 投票 3

Hive上的小文件的性能问题

我正在阅读一篇关于小文件如何降低hive查询性能的文章。 HTTPS://community.hitachivantara.com/community/products-and-solutions/pentaho/blog/2017/11/07/working -...

回答 1 投票 0

计算最终地图中的总行数减少hadoop中的输出

目前我的num reduce任务设置为job.setNumReduceTasks(100);所以我的最终输出目录在S3中,如下所示/output/part-r-00000.gz /output/part-r-00001.gz ...等...

回答 1 投票 0

使用shell脚本的Hadoop流:reducer因错误而失败:没有这样的文件或目录

我正在使用10节点HDP集群,我试图在Bash上使用shell脚本运行一个简单的WordCount作业.Below是我正在使用的Commmand行参数。纱瓶/usr/hdp/2.6.5.0-292/hadoop -...

回答 1 投票 0

仅限地图作业的默认分隔符

如何在MapReduce范例中更改Map Only作业的默认键值分隔符?它给出了输出,其中来自映射器的键和值由“\ t”分隔,但我需要将此分隔符更改为...

回答 1 投票 0

无法使用Spark合并小型ORC文件

我有一个外部ORC表,其中包含大量小文件,这些文件每天都来自源代码。我需要将这些文件合并为更大的文件。我试图将ORC文件加载到...

回答 1 投票 2

在数据帧中重新分配5000万条记录数据是否是个好主意?如果是,那么有人请告诉我这样做的适当方法

我们将在我们的组织中处理大数据(约5000万条记录)。我们基于日期和其他一些参数来划分数据,但数据不是平均分区的。我们能做......

回答 2 投票 0

在YARN中设置作业优先级

我的群集(HDP)正在使用YARN容量调度程序。 nameNode UI显示版本2.7.1.2.4.3.30。我试图在我的hive脚本中将作业优先级设置为HIGH:set mapreduce.job.priority = HIGH; ...

回答 1 投票 0

不支持的子查询表达式''Fashion'':SubQuery表达式仅指外部查询表达式

我正在使用以下查询:从customer_data中选择UserId,Category(在('Fashion','Electronics')中的类别)和('Click','AddToCart','Purchase')中的操作)和customer_data.UserId不在(...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.