hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

如何将Spark RDD保存到本地文件系统

我可以使用 saveAsTextFile 语法将文件保存到本地系统吗? 这就是我编写保存文件的语法的方式:insert_df.rdd.saveAsTextFile("") 当我尝试做的时候

回答 2 投票 0

安装hadoop时权限被拒绝

zsh:权限被拒绝:/opt/homebrew/Cellar/hadoop/3.3.6/libexec/etc/hadoop 在我的 m1 mac 上安装 hadoop 时,终端显示此命令。 我该如何解决这个问题。输入图像描述...

回答 1 投票 0

将 Drill 版本升级到 > 1.14.0 时出现异常 NoClassDefFoundError JniBasedUnixGroupsMapping

对于安装在 Hadoop EMR 核心节点上的 Drill 集群,我们使用基于 PAM 的身份验证。这是下面的配置。 安全.用户.auth: { 启用:真, 包裹 +=...

回答 0 投票 0

MapReduce RunningJob 界面中缺少配置键

我有一个要求,我需要以编程方式访问我之前在 MapReduce 作业上设置的一些配置值。我设置配置对象的方式 最终配置...

回答 0 投票 0

如何在hive中添加多级分区?

我在配置单元中有客户管理的表,根据日期和客户名称进行分区。我的目录结构如下: 用户/hive/warehouse/test.db/customer/date1=2021-09-16/customerName=xyz w...

回答 1 投票 0

HDFS 中的数据节点与 Spark 集群中的执行器节点相同吗?

我正在学习 Apache Spark 和 HDFS。尽管我对一件事感到困惑,但我大部分都理解它们。我的问题是:HDFS中的数据节点和执行器是一样的吗

回答 4 投票 0

Hadoop - wordcount 程序未写入本地主机中的输出文件:9870

我在Windows10机器上使用hadoop-3.3.0和jdk1.8。我有一个练习 WordCount 编程的程序 步骤1:创建一个名为“data.txt”的文件。该文件的内容是: 数据.txt S...

回答 1 投票 0

使用 HFileOutputFormat2 时出现 ClassCastException

我正在尝试使用 HFileOutputFormat2 作为 OutputFormat 将数据从 hdfs 中的文件上传到 hbase 表,但出现以下异常, java.lang.Exception:java.lang.

回答 1 投票 0

如何指定hdfs命令行的日志级别?

我希望在启动 hdfs 命令时有更多日志。但是,我不知道如何指定日志级别,或者即使可以。 我测试了几种解决方案: Hadoop 2.7.0 文档 --log...

回答 1 投票 0

Apache Pig 执行时间

我正在使用 EC2 运行 Pig 进行 WordCount 分析。我们被指示以本地模式运行 Pig。我想分析执行时间以与 MapReduce 进行比较,但我找不到检查方法...

回答 0 投票 0

如何删除带分区的hive表中的重复数据?

必须删除2023-03-26至2023-07-10之间的重复数据。 我尝试使用此命令从表中删除重复项,但出现错误。 命令: 设置 hive.exec.dynamic.partit...

回答 1 投票 0

在 Spark 2.4.7 Hadoop 2.7.7 中读取 Zstandard 压缩 Parquet

我们使用的平台有一个限制,该平台包含 Spark 2.4.7 和 Hadoop 2.7.7 库。 我们在 s3 上有一些 zstandard parquet 格式的数据。 有没有...

回答 1 投票 0

使用 apache hadoop 安装/配置 apache ambari 有问题吗?

我已经安装并配置了一个4节点的hadoop集群。现在我想用hadoop集群配置apache ambari,原因很明显,让hadoop管理更简单、更直观。 我是...

回答 0 投票 0

YARN 客户端模式上的 Spark Thrift 服务器

我尝试在 YARN 模式下运行 Spark Thrift Server,但遇到了麻烦。 我遇到一种情况,我有一个 Hadoop 集群和一个安装了 Spark 的节点。 我想做的是在

回答 0 投票 0

为什么我成功运行的mapreduce作业没有作为条目显示在资源管理器Web界面(0.0.0.0:8088)中?

您好,我已经完成了我的hadoop集群安装/配置。我已经运行了几个 MapReduce 测试,它们成功地返回了结果。然而,当我尝试在

回答 0 投票 0

Apache Spark JAVA_9 通用语言版本上的 Apacher Hadoop 、Apacher Hive

尝试设置Hive使用Spark作为引擎。 经过长时间的配置后,出现超时错误。 应用程序日志文件纱线日志-applicationId 错误yarn.ApplicationMaster:用户类抛出异常...

回答 2 投票 0

使用 magic s3 提交者的 Spark 作业在处理输出路径中 _magic 目录内的 .pendingset 文件时失败

我尝试在我的 Spark 作业中使用 s3 magic committer 在 s3 存储桶上写入数据,但最终在将文件提交到下面的目的地时失败,这是错误 引起者:com.amazonaws.se...

回答 1 投票 0

ML/数据挖掘/大数据:编程和社区支持的流行语言

对于机器学习/数据挖掘,我们需要了解数据,这意味着您需要学习 Hadoop,它在 Java 中实现了 MapReduce(如果我错了请纠正我)。 Hadoop 还提供

回答 5 投票 0

在 Hadoop HDFS 中,删除几个早于 x 天且名称中有空格的文件(不像 UNIX)

我在一个hadoop目录下有几十万个文件,我需要调试它们。我想删除超过 3 个月的文件,我正在尝试批量删除一千个文件...

回答 1 投票 0

使用 Apache Beam 时指定镶木地板文件大小

我正在尝试扩展 Google 的 Dataflow 模板以将数据从 BQ 移动到 Cloud Storage 上的 parquet 文件,但我在尝试控制 parquet 文件大小时受阻。 https://cloud.google.com/dataflow/docs/...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.