hadoop 相关问题

Hadoop是一个Apache开源项目，为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统（HDFS）和资源管理器（YARN）组成。各种其他开源项目，例如Apache Hive，使用Apache Hadoop作为持久层。

Hadoop 启动 ResourceManager 和 NodeManager 时出错

我正在尝试使用单节点集群（伪分布式）设置 Hadoop3-alpha3 并使用 apache 指南来执行此操作。我尝试运行示例 MapReduce 作业，但每次连接都是

java hadoop resourcemanager hadoop3

回答 4 投票 0

Pyspark：将数据帧保存到具有特定大小的单个文件的多个 parquet 文件中

如何将 Pyspark 数据帧保存到多个具有特定大小的 parquet 文件？示例：我的数据帧在 HDFS 上使用 500GB，每个文件为 128MB。我想保存到250个parquet文件，每个文件2GB...

apache-spark hadoop pyspark parquet

回答 1 投票 0

ClassNotFoundException：使用 elasticsearch-hadoop for Spark 时的 scala.Product$class

我正在 AWS EMR 上运行 Spark-Submit 作业从elasticsearch节点读取。当作业执行此命令时 Python： es_config = { “es.nodes”：url_to_my_node， “es.port&q...

apache-spark elasticsearch hadoop amazon-emr

回答 1 投票 0

Spark/Hadoop Azure FS 驱动程序不会轻易允许 setCheckpointDir for wasbs

我在azure中使用blob存储（org.apache.hadoop.fs.azure中的AzureNativeFileSystemStore）。当我尝试将检查点目录设置为指向它时，会失败：火花.conf.设置（ ...

apache-spark hadoop azure-synapse-analytics

回答 1 投票 0

在 Azure Blob 存储中写入 Parquet：“请求输入之一无效”

我正在尝试将 parquet 格式的简单 DataFrame 写入 Azure Blob 存储。请注意，以下代码片段在本地工作，所以我的猜测是它必须与 Azure 相关

scala apache-spark hadoop azure-blob-storage parquet

回答 2 投票 0

获取每个月的最大日期

我正在尝试使用 SQL Hive 从数据库列中获取每个月的最大日期。我有一张表如下：年月日 2020-05-01 2020-05-10 2020-05-20 2020-05-27 2020-06-03 2020-06-12 2...

sql database hadoop hive

回答 1 投票 0

如何正确使用Flume在HDFS中插入JSON

我在 Flume 中使用 HTTPSource 来接收 json 格式的 POST 事件，如下所示： {"用户名":"xyz","密码":"123"} 我的问题是：我是否必须修改事件的来源（我的意思是...

json hadoop flume flume-ng

回答 4 投票 0

如何测试hbase是否正确运行

我刚刚在 EC2 服务器上安装了 hbase（我还安装了 HDFS，它正在工作）。我的问题是我不知道如何检查我的 Hbase 是否安装正确。要安装 hbase，我遵循了这个

hadoop hbase

回答 1 投票 0

为嵌套 JSON 数据创建 Hive 表

我无法将嵌套的 JSON 数据加载到 Hive 表中。以下是我尝试过的：输入示例： {"DocId":"ABC","User1":{"Id":1234,"用户名":"

json hadoop hive hdfs

回答 3 投票 0

如何在Hive中调用shell脚本

如何从 Hive 调用 shell 脚本？我对此进行了探索，发现我们必须使用 source FILE 命令从 hive 调用 shell 脚本。我该怎么做？

shell hadoop hive

回答 3 投票 0

如何使用资源管理器 REST API 终止 YARN 作业

我们有一个启用了 kerberos 的 EMR 集群。我想通过其他应用程序使用 RM API 终止纱线作业。卷曲-v -X PUT -H“内容类型：应用程序/json”-d'{“状态”：&

hadoop hadoop-yarn kerberos

回答 1 投票 0

对我的 Hadoop 集群进行监控和可观察性

我正在尝试在我的 Hadoop 集群上创建一个监控和可观察性基础设施。我的集群是通过cloudera manager管理的，因此我有一些问题，也许你们中的一些人会...

hadoop prometheus grafana cloudera cloudera-manager

回答 1 投票 0

Simba][ImpalaJDBCDriver](500151) 在 Imapala jdbc 连接中设置/关闭会话时出错

我正在尝试使用 JDBC 连接来连接到 impala。使用的 Imapala 驱动程序 jar 是 impalaJDBC41。创建连接对象“con”时发生错误错误是 -[Simba]ImpalaJDBCDriver 错误设置/

hadoop jdbc impala

回答 2 投票 0

在Java应用程序中设置HDFS连接超时

我使用Hadoop的FileSystem类来删除一些HDFS文件。现在的问题是，客户端在太长的持续时间后出现连接超时，我需要缩短等待时间，直到

hadoop timeout hdfs timeoutexception socket-timeout-exception

回答 1 投票 0

如何将公共 s3 url 加载到 putty 终端

我正在尝试在 putty 终端上传提供给我的 s3 链接 https://ml-cloud-dataset.s3.amazonaws.com/Airlines_data.txt 。这样我就可以在配置单元中创建表并将数据集加载到其中。我尝试过

hadoop hive putty

回答 1 投票 0

如何将Spark RDD保存到本地文件系统

我可以使用 saveAsTextFile 语法将文件保存到本地系统吗？这就是我编写保存文件的语法的方式：insert_df.rdd.saveAsTextFile("") 当我尝试做的时候

scala hadoop apache-spark dataframe hive

回答 2 投票 0

安装hadoop时权限被拒绝

zsh：权限被拒绝：/opt/homebrew/Cellar/hadoop/3.3.6/libexec/etc/hadoop 在我的 m1 mac 上安装 hadoop 时，终端显示此命令。我该如何解决这个问题。输入图像描述...

hadoop

回答 1 投票 0

将 Drill 版本升级到 > 1.14.0 时出现异常 NoClassDefFoundError JniBasedUnixGroupsMapping

对于安装在 Hadoop EMR 核心节点上的 Drill 集群，我们使用基于 PAM 的身份验证。这是下面的配置。安全.用户.auth: { 启用：真，包裹 +=...

hadoop hadoop-yarn amazon-emr apache-drill

回答 0 投票 0

MapReduce RunningJob 界面中缺少配置键

我有一个要求，我需要以编程方式访问我之前在 MapReduce 作业上设置的一些配置值。我设置配置对象的方式最终配置...

java hadoop mapreduce

回答 0 投票 0

如何在hive中添加多级分区？

我在配置单元中有客户管理的表，根据日期和客户名称进行分区。我的目录结构如下：用户/hive/warehouse/test.db/customer/date1=2021-09-16/customerName=xyz w...

hadoop hive hiveddl

回答 1 投票 0

hadoop 相关问题

最新问题