Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。
Hadoop 启动 ResourceManager 和 NodeManager 时出错
我正在尝试使用单节点集群(伪分布式)设置 Hadoop3-alpha3 并使用 apache 指南来执行此操作。我尝试运行示例 MapReduce 作业,但每次连接都是
Pyspark:将数据帧保存到具有特定大小的单个文件的多个 parquet 文件中
如何将 Pyspark 数据帧保存到多个具有特定大小的 parquet 文件? 示例:我的数据帧在 HDFS 上使用 500GB,每个文件为 128MB。我想保存到250个parquet文件,每个文件2GB...
ClassNotFoundException:使用 elasticsearch-hadoop for Spark 时的 scala.Product$class
我正在 AWS EMR 上运行 Spark-Submit 作业 从elasticsearch节点读取。 当作业执行此命令时 Python: es_config = { “es.nodes”:url_to_my_node, “es.port&q...
Spark/Hadoop Azure FS 驱动程序不会轻易允许 setCheckpointDir for wasbs
我在azure中使用blob存储(org.apache.hadoop.fs.azure中的AzureNativeFileSystemStore)。 当我尝试将检查点目录设置为指向它时,会失败: 火花.conf.设置( ...
在 Azure Blob 存储中写入 Parquet:“请求输入之一无效”
我正在尝试将 parquet 格式的简单 DataFrame 写入 Azure Blob 存储。 请注意,以下代码片段在本地工作,所以我的猜测是它必须与 Azure 相关
我正在尝试使用 SQL Hive 从数据库列中获取每个月的最大日期。 我有一张表如下: 年月日 2020-05-01 2020-05-10 2020-05-20 2020-05-27 2020-06-03 2020-06-12 2...
我在 Flume 中使用 HTTPSource 来接收 json 格式的 POST 事件,如下所示: {"用户名":"xyz","密码":"123"} 我的问题是:我是否必须修改事件的来源(我的意思是...
我刚刚在 EC2 服务器上安装了 hbase(我还安装了 HDFS,它正在工作)。 我的问题是我不知道如何检查我的 Hbase 是否安装正确。 要安装 hbase,我遵循了这个
我无法将嵌套的 JSON 数据加载到 Hive 表中。以下是我尝试过的: 输入示例: {"DocId":"ABC","User1":{"Id":1234,"用户名":"
如何从 Hive 调用 shell 脚本?我对此进行了探索,发现我们必须使用 source FILE 命令从 hive 调用 shell 脚本。 我该怎么做?
我们有一个启用了 kerberos 的 EMR 集群。我想通过其他应用程序使用 RM API 终止纱线作业。 卷曲-v -X PUT -H“内容类型:应用程序/json”-d'{“状态”:&
我正在尝试在我的 Hadoop 集群上创建一个监控和可观察性基础设施。 我的集群是通过cloudera manager管理的,因此我有一些问题,也许你们中的一些人会...
Simba][ImpalaJDBCDriver](500151) 在 Imapala jdbc 连接中设置/关闭会话时出错
我正在尝试使用 JDBC 连接来连接到 impala。 使用的 Imapala 驱动程序 jar 是 impalaJDBC41。 创建连接对象“con”时发生错误 错误是 -[Simba]ImpalaJDBCDriver 错误设置/
我使用Hadoop的FileSystem类来删除一些HDFS文件。现在的问题是,客户端在太长的持续时间后出现连接超时,我需要缩短等待时间,直到
我正在尝试在 putty 终端上传提供给我的 s3 链接 https://ml-cloud-dataset.s3.amazonaws.com/Airlines_data.txt 。这样我就可以在配置单元中创建表并将数据集加载到其中。 我尝试过
我可以使用 saveAsTextFile 语法将文件保存到本地系统吗? 这就是我编写保存文件的语法的方式:insert_df.rdd.saveAsTextFile("") 当我尝试做的时候
zsh:权限被拒绝:/opt/homebrew/Cellar/hadoop/3.3.6/libexec/etc/hadoop 在我的 m1 mac 上安装 hadoop 时,终端显示此命令。 我该如何解决这个问题。输入图像描述...
将 Drill 版本升级到 > 1.14.0 时出现异常 NoClassDefFoundError JniBasedUnixGroupsMapping
对于安装在 Hadoop EMR 核心节点上的 Drill 集群,我们使用基于 PAM 的身份验证。这是下面的配置。 安全.用户.auth: { 启用:真, 包裹 +=...
我有一个要求,我需要以编程方式访问我之前在 MapReduce 作业上设置的一些配置值。我设置配置对象的方式 最终配置...
我在配置单元中有客户管理的表,根据日期和客户名称进行分区。我的目录结构如下: 用户/hive/warehouse/test.db/customer/date1=2021-09-16/customerName=xyz w...