hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

没有输入文件的 Hadoop 流作业

是否可以执行没有输入文件的 Hadoop Streaming 作业? 在我的用例中,我能够使用单个映射器和执行参数为减速器生成必要的记录。

回答 2 投票 0

Apache Parquet 文件应使用什么 MIME 媒体类型(内容类型)?

背景:Apache Parquet 是一种开源、面向列的数据文件格式,专为高效数据存储和检索而设计。它提供高效的数据压缩和编码方案,...

回答 1 投票 0

Hadoop 正在使用 context.write() 写入文件,但输出文件为空

我正在运行hadoop代码,但遇到了问题。 请注意注释行“调试异常 1”和“调试异常 2”以及它们下面的行。因为我无法打印

回答 1 投票 0

Kafka 的 Rest API

我需要为kafka编写一个REST API,它可以分别从消费者/生产者读取或写入数据。 我怎样才能做到这一点?

回答 2 投票 0

数据重述

我有一个名为“old_table”的表,它是一个外部表,它有8列,分别是姓名、地点、出生日期、爱好、学校、性别、班级、详细信息。这里的详细信息列是一个结构体数组类型,例如...

回答 1 投票 0

java.lang.ClassNotFoundException:Kubernetes Flink 会话作业的 org.apache.hadoop.conf.Configuration

我通过 Helm Operator 将 Flink 部署到 Kubernetes 集群。我启用了 flink-s3-f2-hadoop 插件: # 来源:flink-demo/templates/flink-session-cluster.yaml api版本:flink.apache.org/v1beta1

回答 1 投票 0

尝试执行“bin/mkdistro.sh -DskipTests”时出现 Oozie 错误

尝试按照http://www.thecloudavenue.com/2013/10/installation-and-configuration-of.html安装oozie 4.0.1 hadoop 版本 - 2.4.0 行家 - 3.0.4 sqoop - 1.4.4 在尝试执行时...

回答 4 投票 0

为什么我们需要 Hadoop KMS?

我不确定为什么我们需要这个 Hadoop KMS?我浏览了 Apache Hadoop 的官方文档,并没有明确提到为什么我们需要这个概念。唯一的事情...

回答 3 投票 0

hadoop 3.3.6 中的 Hbase/HDFS Jmeter 测试性能

我想在hadoop 3.3.6上使用jmeter测试hdfs的性能,但是hadoop 3.3.6不支持hbase / hdfs插件,我已经看过教程和几种方法,即通过更改依赖项...

回答 1 投票 0

HADOOP_HOME 设置不正确

我从这里下载了hadoop的二进制tarball:http://hadoop.apache.org/releases.html(ver 2.8.4)。我解压了 tar.gz 文件,然后将 etc/hadoop-env.sh 从 导出 JAVA_HOME={$

回答 3 投票 0

启用 kerberos 时是否可以禁用 Hadoop 纱线 PTR 检查?

我们有一个hadoop集群,当前在公共IP上运行。我们想要将集群 IP 更改为私有 IP 地址。所以它不能从互联网路由。但主要问题是当...

回答 1 投票 0

Airflow HiveOperator 结果集

我是 Airflow 和 Python 的新手,我正在尝试配置计划报告。该报告需要从 Hive 中提取数据并通过电子邮件发送结果。 到目前为止我的代码: 从日期时间导入日期时间,

回答 1 投票 0

Hadoop 的单词百分比程序

我正在开发著名的 WordCount 程序的一个稍微改进的版本,它应该输出该单词占书中的百分比。例如: ... 战争 0.00002332423% 和平 0.0034234324% ...

回答 3 投票 0

无法使用 Airflow 2.1.2 DAG 中的 HiveOperator 连接到 Hive

我一直在努力从 HiveOperator 任务运行 Hive 查询。 Hive 和 Airflow 安装在 docker 容器中,我可以从 Airflow 容器中的 python 代码查询 Hive 表...

回答 2 投票 0

在笔记本电脑上安装hadoop的硬件要求

在 Windows 上安装 Hadoop 时推荐的最佳笔记本电脑硬件是什么?我假设我必须安装单节点安装,如果没有,请指导我进行正确的配置。

回答 4 投票 0

yarn hadoop 2.4.0:信息消息:ipc.Client 正在重试连接到服务器

我已经寻找了两天的解决方案。但没有任何效果。 首先,我对整个 hadoop/yarn/hdfs 主题很陌生,想要配置一个小型集群。 上面的消息并不是每次都会出现...

回答 7 投票 0

看不到 Hive 上的表

我是新人,我正在学习教程,所以我可能会提供一些不必要的信息。我使用 beeline 连接到 hive。然后我使用以下命令创建了一个名为“adv_sales_gt_20”的表...

回答 1 投票 0

如何向现有的 Hive 外部表添加列?

创建外部表可降级( 第 1 列字符串, 第 2 列字符串, 第 3 列字符串) 行格式分隔字段以“|”结尾 位置“/数据/可降级”; 我创建外部表“可降级”并且...

回答 2 投票 0

在 hive 上读取 zst 文件时出现未知的帧描述符?

我有一个文件a.csv.zst并且我创建了文本文件表。 当我在 hive 上选择时,我看到前 100 行没有错误,但是当我选择 count(*) 时,它给出错误未知帧描述符 我可以装饰...

回答 1 投票 0

失败:访问 Hive 视图时执行错误,从 org.apache.hadoop.hive.ql.exec.mr.MapRedTask 异常返回代码 2

我正在尝试访问 Hive 中的视图,出现以下异常: 获取日志线程被中断,因为查询已完成! 错误:处理语句时出错:FAILED:执行错误,返回

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.