hadoop2 相关问题

Hadoop 2代表了非常流行的开源分布式平台Apache Hadoop的第二代。

设置多节点hadoop群集Blockpool ID不匹配

在设置多节点hadoop集群时,我遇到了几个问题。通过不同的门户网站进行正确设置。出现了一些基本问题我正在使用Hadoop 2.8.5来建立一个2节点......

回答 1 投票 0

Hive查询结果中的NULL列名称

我已经从NOAA下载了天气.txt文件,它们看起来像:WBAN,Date,Time,StationType,SkyCondition,SkyConditionFlag,Visibility,VisibilityFlag,WeatherType,WeatherTypeFlag,DryBulbFarenheit,...

回答 2 投票 2

在创建表时,我可以在配置单元中一次使用2个字段终止符(如“,”和“。”)吗?

我有一个id和年份的文件。我的田地被分开了,并且..我有没有机会在被我终止的田地里使用,和。?

回答 1 投票 1

如何在mapreduce中编写自定义输出文件格式

请建议我如何将输出fileformat(part-r-00000)(默认文件格式)更新为另一种文件格式,如csv或txt文件格式的map reduce程序。

回答 2 投票 -2

运行“hbase org.apache.hadoop.hbase.mapreduce.Import”时出现行长度为0的问题

我想将一个表从hbase版本0.98群集复制到hbase版本1.2.0-cdh5.7.3群集。运行命令:hbase org.apache.hadoop.hbase.mapreduce.Import -Dmapreduce.job.queuename = -Dhbase ....

回答 1 投票 0

提高ORC文件的配置单元的写入速度

目前插入覆盖表T1从T2中选择*;在我的群集中大约需要100分钟。表T1是ORC格式的,T2是文本格式。我正在从T2读取60 GB的文本数据...

回答 2 投票 2

为什么Hadoop需要那么多的RAM?

Hadoop容器需要更多的RAM,数据大小itsef(我用于测试0.5GB大小的数据)实际上是它的两倍,为什么它太多了?什么是物理记忆的概念和......

回答 1 投票 1

如何编写映射的输出将作业直接减少到分布式缓存,以便将其传递给另一个作业

我目前正在练习Map-reduce(Hadoop 2.2),并且需要您对其中一个概念的帮助。我有一个用例,我想用两个工作来完成。我想将job1的输出写入...

回答 3 投票 3

HDFS错误放置:`input':没有这样的文件或目录

我已经安装了hadoop 2.6.0,我正在玩它。我正在尝试伪分布式设置,我正按照http://hadoop.apache.org/docs/current/hadoop-project-dist / ...上的说明进行操作。

回答 7 投票 6

Ambari Hadoop Spark群集防火墙问题

我刚刚推出了Hadoop / Spark集群,以便在我的公司启动数据科学计划。我使用Ambari作为经理并安装了Hortonworks发行版(HDFS 2.7.3,Hive 1 ....

回答 1 投票 0

ApplicationMaster退出代码杀死的容器是143

我在几种情况下遇到以下错误:2017-03-23 11:55:10,794 INFO [AsyncDispatcher事件处理程序] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:诊断报告.. 。

回答 2 投票 3

HBase表???表声明为外部表时不存在

我正在尝试使用Hive创建一个HBase表(我打算使用insert从另一个Hive表填充它),通过以下内容:CREATE EXTERNAL TABLE HBWeather(key struct)

回答 2 投票 0

使用基于会话的令牌身份验证将数据从hdfs移动到s3

在将数据从hdfs移动到S3时,有人可以帮助我进行身份验证。要连接到S3,我使用aws_key_gen(access_key,secret_key和session ...)生成基于会话的凭据。

回答 1 投票 2

Map-Reduce作业无法提供预期的分区文件

在Map-Reduce作业中,我使用五个不同的文件,其中我的数据集中包含两个类别P和I下的值。在找到特定值后,我将这些传递给I-part-r-00000文件...

回答 1 投票 0

使用load命令将数据加载到hive静态分区表

请不要介意,如果它是一个非常基本的:test.txt 1 ravi 100 hyd 2 krishna 200 hyd 3 fff 300秒我已经在城市中创建了一个带有分区的表,并加载了如下数据:创建...

回答 3 投票 3

Hive上的小文件的性能问题

我正在阅读一篇关于小文件如何降低hive查询性能的文章。 HTTPS://community.hitachivantara.com/community/products-and-solutions/pentaho/blog/2017/11/07/working -...

回答 1 投票 0

计算最终地图中的总行数减少hadoop中的输出

目前我的num reduce任务设置为job.setNumReduceTasks(100);所以我的最终输出目录在S3中,如下所示/output/part-r-00000.gz /output/part-r-00001.gz ...等...

回答 1 投票 0

使用shell脚本的Hadoop流:reducer因错误而失败:没有这样的文件或目录

我正在使用10节点HDP集群,我试图在Bash上使用shell脚本运行一个简单的WordCount作业.Below是我正在使用的Commmand行参数。纱瓶/usr/hdp/2.6.5.0-292/hadoop -...

回答 1 投票 0

仅限地图作业的默认分隔符

如何在MapReduce范例中更改Map Only作业的默认键值分隔符?它给出了输出,其中来自映射器的键和值由“\ t”分隔,但我需要将此分隔符更改为...

回答 1 投票 0

无法使用Spark合并小型ORC文件

我有一个外部ORC表,其中包含大量小文件,这些文件每天都来自源代码。我需要将这些文件合并为更大的文件。我试图将ORC文件加载到...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.