hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

Hive 镶木地板表 SerdeProperties

如何从现有表中删除 With SerdeProperties。我有 2 个字段 1).field.delim 2).序列化格式 我要么需要将它们设置为默认值,要么取消设置属性。我该如何实现...

回答 0 投票 0

在 hadoop 集群上运行 python 脚本会引发错误

我是 Hadoop 的新手,我已经按照不同的教程在 Ubuntu 上安装了它。具体来说,我遵循了本教程: https://medium.com/@festusmorumbasi/installing-hadoop-on-...

回答 0 投票 0

如何拥有同时工作的 3 个数据节点的集群?

我运行一个数据节点:./bin/hdfs datanode -conf ./etc/hadoop/datanode1.xml 只有一个工作 当我尝试运行两个时:“datanode 正在作为进程运行。首先停止它并确保 /tmp/hadoop-user-datan ...

回答 1 投票 0

assertThat() 方法是什么?

assertThat() 方法是什么?怎么会有用? 我在 hadoop 的 mapreduce 程序中看到过这种方法。谁能简单解释一下?

回答 3 投票 0

Hadoop:start-dfs.sh 给出 WARN util.NativeCodeLoader:无法为您的平台加载本机 hadoop 库...使用内置 java 类

我是数据科学和 Hadoop 的新手,我已经按照教程“https://youtu.be/_btD1nDY6hk”在我的 mac 设备上成功安装了 Hadoop。但是在尝试启动 dfs 或运行时 明星...

回答 0 投票 0

java.io.IOException: Could not locate executable C:\spark in in\winutils.exe in the Hadoop binaries

我正在尝试使用 intellij 在 spark-scala 中运行基本程序。当我运行我的代码时,出现以下错误,如“java.io.IOException: Could not locate executable C:\spar...

回答 0 投票 0

如何同时将数据插入到具有多个 Spark 作业的多个分区 Hive 表中并避免 InsertOperationConflictException?

我想使用多个并行 Spark 作业将多个 CSV 上传到现有的 Hive 表中。每个 CSV 进入一个单独的分区,每个作业将上传一个 CSV。我该怎么做呢? 细节: 我...

回答 0 投票 0

Datanode目录为空

我已经启动了hdfs,但是网站上没有显示datanodes。 虽然当我在数据节点机器上运行“jps”命令时: 另外,Datanode 目录是空的。 这是内容...

回答 0 投票 0

Hive hook - apache atlas

我遇到了在 apache atlas 中实现 hive hook 的问题。当我添加 org.apache.atlas.hive.hook.HiveHook 属性时,它给我一个错误,否则(当它被删除时),import-hive.sh 工作 j ...

回答 0 投票 0

计算单个 Hadoop 作业中的单个单词频率和单词对

我正在尝试在单个 Hadoop 作业中执行以下操作: 这是一个示例文本:巴黎公社是一个从 3 月 18 日(更正式地说,从 3 月 28 日)到 1871 年 5 月 28 日短暂统治巴黎的政府....

回答 0 投票 0

How to run apache hadoop yarn 'ResourceManager' and 'NodeManager' from source code?

我正在学习 apache hadoop yarn 并想从源代码运行它。启动“ResourceManager”时出现错误,我猜它在启动时缺少参数。 听说是错误 org.apache.hadoop.s...

回答 1 投票 0

如何增加 AM 可以在 Hadoop 中使用的最大 vCores?

我正在为一些 hadoop 配置而苦苦挣扎。我正在寻找增加 Applications Master 可以使用的最大 vCore 数。 我的问题是目前只能使用 1 个 vCore(参见

回答 2 投票 0

Hadoop:启动数据节点时出错

我正在尝试启动hadoop。但是,Datanodes 无法启动,这是 start hdfs 命令的输出。虽然namenode是正确启动的。 启动名称节点 启动datanod ...

回答 0 投票 0

如何计算 Pig 中的其他字段?

我有以下数据集。 f1,f2,f3,f4,f5,f6 我正在寻找 f6 的计数以及其他字段。 f1,f2,f3,f4,f5,5 f1,f2,f3,f4,f5,3 等等。 我试过这段代码,但它需要很长时间才能

回答 1 投票 0

Hive:Java 异常

我已经安装了Hadoop,HIVE,并且已经安装了MYSQL Server。 我按照这两个链接安装了 Hadoop & Hive。我按照这些链接中提到的那样配置了 .sh,XML 文件,我得到了这个

回答 0 投票 0

具有输入大小的 Hadoop mapreduce ~ 2Mb 慢

我尝试使用 hadoop 分发计算。 我正在使用序列输入和输出文件以及自定义可写文件。 输入是三角形列表,最大大小为 2Mb,但可以小于 5...

回答 3 投票 0

Spark 与 Docker 和 Spring 的初始化问题

我正在尝试从 Spring boot 2.7.3 应用程序中使用 Spark 3。我在 Windows 10 和 Docker 桌面上的 Docker 组合环境中工作。 这是我的码头工人组成: 版本:'3' 服务: 小...

回答 0 投票 0

我正在尝试将文件导入数据块,但它显示绝对路径错误

我正在尝试将文件导入 spark。我尝试了不同的方法来导入它,但所有方法都产生了相同的结果。 从 pyspark.sql.functions 导入 to_timestamp、col、lit rc = spark.read...

回答 0 投票 0

如何在 yarn RM UI 的应用程序队列功能下获取/启用活动用户信息?

我无法在 rm ui 上看到应用程序队列,有什么方法可以启用它吗? 我尝试添加队列和一些属性,但在 UI 上看不到这个?有人可以帮忙吗?

回答 0 投票 0

将 parquet 文件写入 s3 NoSuchMethodError 时:void org.apache.hadoop.util.SemaphoredDelegatingExecutor

当我尝试将数据帧作为镶木地板写入 s3 时,我总是会收到如下错误。在s3 bucket中,每次都会自动生成一个空文件夹,但是没有parquet文件。我怎么能

回答 4 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.