hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

如何在Spark中检查HDFS目录是否为空

我正在使用org.apache.hadoop.fs来检查HDFS中的目录是否为空。我查找了 FileSystem api,但找不到任何接近它的东西。基本上我想检查目录是否...

回答 3 投票 0

Hive 安装问题:Hive Metastore 数据库未初始化

我尝试在树莓派2上安装hive。我通过解压缩压缩的Hive包来安装Hive,并在我创建的hduser用户组下手动配置$HADOOP_HOME和$HIVE_HOME。跑步时嗨...

回答 6 投票 0

Hadoop 2.6 Mapreduce 权限在 Windows 上设置不正确

我在Windows上安装了Hadoop 2.6作为一些依赖于Hadoop的软件的测试平台。据我所知,安装工作正常。我将 Hadoop 保存在 C:\Hadoop 中,我的节奏...

回答 8 投票 0

更改 hive 表添加或删除列

我在配置单元中有 orc 表,我想从此表中删除列 ALTER TABLE 表名 drop col_name; 但我收到以下异常 执行配置单元查询时发生错误:确定失败:

回答 9 投票 0

在WEBHDFS REST Api中启用跨域访问以供JavaScript使用?

我尝试从 Webhdfs Rest api 获取 liststatus,但出现以下错误。 XMLHttpRequest 无法加载 http://:50070/webhdfs/v1/?op=LISTSTATUS。没有“访问-控制-允许-或...”

回答 2 投票 0

Parquet文件覆盖压缩优化时如何保证Spark查询的原子性和数据完整性?

我有一个 Spark 设置,其中存在包含原始 Parquet 文件的分区,并且查询正在这些分区上主动运行。 我正在运行后台作业来优化这些 Parquet 文件以获得更好的效果

回答 1 投票 0

Hive 将数据存储在哪里?

我对 Hive 存储数据的位置有点困惑。 它将数据存储在 HDFS 还是 RDBMS 中? Hive Metastore 是否使用 RDBMS 来存储 Hive 表元数据?

回答 2 投票 0

带通配符的 Hive 外部表

我正在尝试创建一个外部 Hive 表,并将位置作为通配符。期望它能够遍历子目录。但不知何故它不起作用,而是用

回答 1 投票 0

使用 pyspark,并下载了 hadoop-aws:3.3.4,我仍然收到“方案“s3”没有文件系统”错误

我在本地工作,使用以下方法构建spark_session: 生成器 = SparkSession.builder \ .master("本地[8]") \ .appName("test_app") \ .config("sp...

回答 1 投票 0

datanode正在启动但在jps中没有显示

我在ubuntu中安装了hadoop,当我运行以下命令时: 须藤苏 hduser cd /usr/local/hadoop/etc/hadoop sudo rm -R /应用程序/* sudo rm -R /tmp/* hadoop namenode-格式 启动-dfs.sh &&

回答 1 投票 0

过滤掉非目录inode的hdfs审计日志

我正在使用logstash 将 HDFS 审核日志消息填充到 Kafka 主题中。 我在 Kafka 主题中收到的示例消息具有以下格式: allowed=true ugi={myuser} (auth:SIMPLE) ip={/x.x.x...

回答 1 投票 0

线程“main”中出现异常 java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$POSIX.stat(Ljava/lang/String;)

现在我想加载保存在路径中的spark管道模型(C:\Users\ASUS\Desktop\kaggl

回答 0 投票 0

hive 映射 mysql 表:在连接条件中选择不同的 mysql 数据源时无法成功

我使用jdbc存储处理程序将hive中的多个mysql数据源映射为https://cwiki.apache.org/confluence/display/Hive/JDBC+Storage+Handler; 第一个表是: 如果外部表不存在,则创建

回答 1 投票 0

失败:语义分析错误:在多个表/子查询中找到列

创建外部表old_events (天 STRING、foo STRING、计数 STRING、internal_id STRING) 分区依据(ds 字符串) 行格式分隔 以 ' ' 结尾的字段 位置“${输入}”; 创建 EX...

回答 2 投票 0

如何将作业提交到Hadoop中的特定节点?

我有一个Hadoop集群,有1个Master和5个Slave。有什么方法可以将工作提交给特定的奴隶组吗?基本上我想做的是用许多可能性对我的应用程序进行基准测试......

回答 4 投票 0

启用 Kerberos 的 HDP 2.6 集群中 Storm HDFS Bolt 面临问题

我已在 HDP 2.6 集群中启用了 Kerberos 安全性,在启用 Kerberos 之前,在该集群上安装了 Kafka 和 Storm 服务。 我正在运行的拓扑有 kafka-spout 和 hdfs...

回答 1 投票 0

为什么使用“schematool -initSchema”无法识别hive-site.xml中的“amps”

配置完Hive和mysql后,希望通过Hive自带的schematool工具来升级元数据。当我输入升级说明时,显示以下错误。我也我们...

回答 1 投票 0

Hadoop log4j 找不到 KafkaLog4JAppender.class

我在 MR 作业中添加了 KafkaLog4JAppender 功能。 该作业正在本地运行并将格式化日志发送到我的 Kafka 集群中。 当我尝试从纱线服务器运行它时,使用: 罐子[罐子-...

回答 2 投票 0

使用本地文件进行 Spark 流式处理(Python)

有没有办法扫描本地文件系统以查找特定文件夹中的更改,就像使用 HDFS (GitHub 示例)一样?使用常规路径或带有 hdfs:// 的 URI 运行它似乎可以工作,但是使用...

回答 1 投票 0

运行 Spark-shell 时出现错误:SparkContext:初始化 SparkContext 时出错

我在三个节点上成功安装了spark。我可以访问 Spark Web UI 并发现每个工作节点和主节点都处于活动状态。 我可以成功运行 SparkPi 示例。 我的集群信息: 10.45.10.33(

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.