hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

Hadoop 启动 ResourceManager 和 NodeManager 时出错

我正在尝试使用单节点集群(伪分布式)设置 Hadoop3-alpha3 并使用 apache 指南来执行此操作。我尝试运行示例 MapReduce 作业,但每次连接都是

回答 4 投票 0

Pyspark:将数据帧保存到具有特定大小的单个文件的多个 parquet 文件中

如何将 Pyspark 数据帧保存到多个具有特定大小的 parquet 文件? 示例:我的数据帧在 HDFS 上使用 500GB,每个文件为 128MB。我想保存到250个parquet文件,每个文件2GB...

回答 1 投票 0

ClassNotFoundException:使用 elasticsearch-hadoop for Spark 时的 scala.Product$class

我正在 AWS EMR 上运行 Spark-Submit 作业 从elasticsearch节点读取。 当作业执行此命令时 Python: es_config = { “es.nodes”:url_to_my_node, “es.port&q...

回答 1 投票 0

Spark/Hadoop Azure FS 驱动程序不会轻易允许 setCheckpointDir for wasbs

我在azure中使用blob存储(org.apache.hadoop.fs.azure中的AzureNativeFileSystemStore)。 当我尝试将检查点目录设置为指向它时,会失败: 火花.conf.设置( ...

回答 1 投票 0

在 Azure Blob 存储中写入 Parquet:“请求输入之一无效”

我正在尝试将 parquet 格式的简单 DataFrame 写入 Azure Blob 存储。 请注意,以下代码片段在本地工作,所以我的猜测是它必须与 Azure 相关

回答 2 投票 0

获取每个月的最大日期

我正在尝试使用 SQL Hive 从数据库列中获取每个月的最大日期。 我有一张表如下: 年月日 2020-05-01 2020-05-10 2020-05-20 2020-05-27 2020-06-03 2020-06-12 2...

回答 1 投票 0

如何正确使用Flume在HDFS中插入JSON

我在 Flume 中使用 HTTPSource 来接收 json 格式的 POST 事件,如下所示: {"用户名":"xyz","密码":"123"} 我的问题是:我是否必须修改事件的来源(我的意思是...

回答 4 投票 0

如何测试hbase是否正确运行

我刚刚在 EC2 服务器上安装了 hbase(我还安装了 HDFS,它正在工作)。 我的问题是我不知道如何检查我的 Hbase 是否安装正确。 要安装 hbase,我遵循了这个

回答 1 投票 0

为嵌套 JSON 数据创建 Hive 表

我无法将嵌套的 JSON 数据加载到 Hive 表中。以下是我尝试过的: 输入示例: {"DocId":"ABC","User1":{"Id":1234,"用户名":"

回答 3 投票 0

如何在Hive中调用shell脚本

如何从 Hive 调用 shell 脚本?我对此进行了探索,发现我们必须使用 source FILE 命令从 hive 调用 shell 脚本。 我该怎么做?

回答 3 投票 0

如何使用资源管理器 REST API 终止 YARN 作业

我们有一个启用了 kerberos 的 EMR 集群。我想通过其他应用程序使用 RM API 终止纱线作业。 卷曲-v -X PUT -H“内容类型:应用程序/json”-d'{“状态”:&

回答 1 投票 0

对我的 Hadoop 集群进行监控和可观察性

我正在尝试在我的 Hadoop 集群上创建一个监控和可观察性基础设施。 我的集群是通过cloudera manager管理的,因此我有一些问题,也许你们中的一些人会...

回答 1 投票 0

Simba][ImpalaJDBCDriver](500151) 在 Imapala jdbc 连接中设置/关闭会话时出错

我正在尝试使用 JDBC 连接来连接到 impala。 使用的 Imapala 驱动程序 jar 是 impalaJDBC41。 创建连接对象“con”时发生错误 错误是 -[Simba]ImpalaJDBCDriver 错误设置/

回答 2 投票 0

在Java应用程序中设置HDFS连接超时

我使用Hadoop的FileSystem类来删除一些HDFS文件。现在的问题是,客户端在太长的持续时间后出现连接超时,我需要缩短等待时间,直到

回答 1 投票 0

如何将公共 s3 url 加载到 putty 终端

我正在尝试在 putty 终端上传提供给我的 s3 链接 https://ml-cloud-dataset.s3.amazonaws.com/Airlines_data.txt 。这样我就可以在配置单元中创建表并将数据集加载到其中。 我尝试过

回答 1 投票 0

如何将Spark RDD保存到本地文件系统

我可以使用 saveAsTextFile 语法将文件保存到本地系统吗? 这就是我编写保存文件的语法的方式:insert_df.rdd.saveAsTextFile("") 当我尝试做的时候

回答 2 投票 0

安装hadoop时权限被拒绝

zsh:权限被拒绝:/opt/homebrew/Cellar/hadoop/3.3.6/libexec/etc/hadoop 在我的 m1 mac 上安装 hadoop 时,终端显示此命令。 我该如何解决这个问题。输入图像描述...

回答 1 投票 0

将 Drill 版本升级到 > 1.14.0 时出现异常 NoClassDefFoundError JniBasedUnixGroupsMapping

对于安装在 Hadoop EMR 核心节点上的 Drill 集群,我们使用基于 PAM 的身份验证。这是下面的配置。 安全.用户.auth: { 启用:真, 包裹 +=...

回答 0 投票 0

MapReduce RunningJob 界面中缺少配置键

我有一个要求,我需要以编程方式访问我之前在 MapReduce 作业上设置的一些配置值。我设置配置对象的方式 最终配置...

回答 0 投票 0

如何在hive中添加多级分区?

我在配置单元中有客户管理的表,根据日期和客户名称进行分区。我的目录结构如下: 用户/hive/warehouse/test.db/customer/date1=2021-09-16/customerName=xyz w...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.