hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

用Java读取HDFS和本地文件

我想读取文件路径,无论它们是HDFS还是本地路径。目前,我传递带有前缀file://的本地路径和带有前缀hdfs://的HDFS路径,并将一些代码写为...

回答 3 投票 18

升级后连接到配置单元中的Metastore

我最近将我的Hive从v1.2更新到v2.1。现在我每次登录时都会直接连接到默认的hive Metastore(metastore_db),而不是我的thrift Metoreore端口(https:// localhost:9083)......

回答 1 投票 0

无法将Sentry与Hive绑定

这篇文章是关于绑定Sentry与Hive。我一直面对这个问题。我的主要目标是提供对创建时具有权限的数据库和表的访问权限......

回答 1 投票 0

运行hadoop wordcount示例时出现错误消息

我用这个命令在Hadoop中运行wordcound示例。 hadoop jar /usr/local/Cellar/hadoop/3.0.0/libexec/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount inputWiki / ...

回答 1 投票 -2

如何插入带有镶木地板格式和SNAPPY压缩的蜂巢表?

Hive 2.1我有以下表定义:CREATE EXTERNAL TABLE table_snappy(一个STRING,b INT)PARTITIONED BY(c STRING)行格式SERDE'org.apache.hadoop.hive.ql.io.parquet.serde ....

回答 1 投票 0

有没有人有一个hive错误代码列表?

有没有人有蜂巢错误代码列表?例如,如果我们在配置单元中找到一个未找到表的错误,则为“echo $?”的值将是17。

回答 1 投票 3

运行HIVE命令抛出错误:线程“main”中的异常java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException

我已根据此链接在我的Ubuntu机器上完成了HIVE设置。当我运行HIVE命令(最后一步)时,我得到以下异常:SLF4J:类路径包含多个SLF4J绑定。 SLF4J:发现......

回答 2 投票 0

如何将cloudera apache哨句与open ldap集成

我在我的CDH 5.10快速启动VM中使用LDAP进行开发,我已经在其中启动了Sentry服务。现在我想将Apache Sentry与LDAP集成。请告诉我,如果是的话......

回答 2 投票 2

Cloudera Sentry with LDAP - 无法将用户添加为Sentry管理员

背景:默认情况下,Sentry服务将用户配置为hive,hue和impala作为哨兵管理员。这是与Cloudera Manager(CM)sentry.service.admin.group上的属性相关的。我想添加一个......

回答 1 投票 2

如何将数据从生产集群传输到datalab集群进行实时数据分析?

我们正在使用mapr,我们想部署一个新的(datalab)集群,我问的是将数据从生产集群传输到datalab集群的最佳方法?我们用镜像,在...之间

回答 2 投票 0

将MR作业提交给具有不同ID的Hadoop集群

我们可以将MR作业提交给hadoop集群的最佳方式是什么?场景:开发人员有自己的id,例如dev-user1,dev-user2等.Hadoop集群有各种各样的id ...

回答 1 投票 -1

ZEPPELIN:无法找到或加载主类org.apache.zeppelin.server.ZeppelinServer

我有OS Red Hat Enterprise Linux Server 7.4版(Maipo)Ambari版本2.5.1.0 HDP 2.6试图启动Zeppelin Server返回错误:引发ExecutionFailed(err_msg,code,out,err)...

回答 1 投票 0

连接到HDFS时控制重试次数的属性有哪些

当我尝试使用无效的URL连接到HDFS时,我收到以下格式的消息:重试连接到服务器: / 。已经尝试过了 时间(s); maxRetries = 45哪个......

回答 2 投票 2

在Hadoop中链接多个MapReduce作业

在许多应用MapReduce的实际情况中,最终的算法最终会成为几个MapReduce步骤。即Map1,Reduce1,Map2,Reduce2等。所以你有...的输出

回答 13 投票 118

Spark的纱线群集优化

我尝试为我的4节点集群配置Yarn和Spark。每个节点都有以下规格:24核23.5 GB RAM交换我配置Yarn和Spark到目前为止Spark可以执行SparkPi ...

回答 1 投票 1

Hive查询regexp_extract失败

我正在尝试使用regexp_extract从我的表中的列(字符串数据类型)中提取我所需的数据,我使用此查询:select regexp_extract(concat(column_name ,;),'。* a2 =?(。*?); ',1)来自表格; ...

回答 2 投票 0

internal.S3AbortableInputStream on hadoop fs -get s3 to EMR

当我进入EMR集群并执行以下命令时:hadoop fs -get s3:// path / to / my / files我收到以下错误,文件传输失败了。我用过这个......

回答 1 投票 0

如何在hadoop环境中添加外部Jar?

我在运行map reduce工作时遇到了一些问题。我使用JSON jar来处理HDFS中的JSON文件并编写了逻辑,但是在运行作业时遇到错误(无法...

回答 3 投票 0

将时间戳舍入到蜂巢中的小时

如果我们在列中有时间戳,例如'2018-01-01 01:35:00.000'。我想将时间戳舍入为小时,并将值设为'2018-01-01 01:00:00.000'。

回答 2 投票 0

在spark中设置textinputformat.record.delimiter

在Spark中,可以设置一些hadoop配置设置,例如, System.setProperty(“spark.hadoop.dfs.replication”,“1”)这个工作,复制因子设置为1.假设...

回答 1 投票 5

© www.soinside.com 2019 - 2024. All rights reserved.