hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

Haddop 集群有 3 个活动节点,但资源管理器中只有 1 个活动节点

我使用来自 docker hub 的 apache/hadoop 镜像在 docker 上运行 hadoop。 我只是使用默认配置运行并添加 2 个模式数据节点 这是我的 docker-compose.yaml 版本:“2” 服务:

回答 1 投票 0

Jupyter Notebook 连接到远程配置单元

我正在尝试从我们公司远程服务器的 Hive 获取数据。我使用 Anaconda3(Windows 64 位),我的 Hadoop 在 Ambari 上运行。 我尝试过做这样的事情...... 导入发现公园 发现公园.i...

回答 1 投票 0

Spark parquet 数据帧分区数

我有一个 HDFS 文件夹,其中包含两个 250MB 的 parquet 文件。 hadoop df 块大小设置为 128MB。 有以下代码: JavaSparkContext SparkContext = new JavaSparkContext(); SQLContext

回答 2 投票 0

MapReduce 框架输出列表与完全确定值

我对MapReduce的初步理解是,它是为了解决reduce函数的输出与reduce函数的输入兼容的问题而设计的,这样就可以称为repea...

回答 1 投票 0

在hadoopyarn上运行pyspark无法连接到localhost/127.0.0.1:46311

当我在 hadoop 纱线中运行 pyspark 时: HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/ pyspark --master yarn --deploy-mode 客户端 它给了我这个: 引起原因:java.io.IOException:无法连接到

回答 1 投票 0

为什么我的辅助名称节点总是与名称节点在同一台机器上启动

我正在使用 Apache Hadoop 3.3.6。 我在 hdfs-site.xml 中进行了设置: dfs.namenode.secondary.https-地址 192.168.56.193:9869 我正在使用 Apache Hadoop 3.3.6。 我在 hdfs-site.xml 中进行了设置: <property> <name>dfs.namenode.secondary.https-address</name> <value>192.168.56.193:9869</value> </property> 但是启动时,我的辅助名称节点以与名称节点相同的IP(192.168.56.213)启动。我该如何解决它? 我尝试在互联网上搜索但无法收到任何满意的答案。 通过 SSH 连接到该服务器并显式启动辅助名称节点 $ ssh 192.168.56.193 $ $HADOOP_HOME/sbin/hadoop-daemon.sh start secondarynamenode 您可以通过检查 Hadoop 日志或运行以下命令来验证辅助 Namenode 是否正在运行: $ $HADOOP_HOME/bin/hdfs dfsadmin -report

回答 1 投票 0

如何删除Hive列?

我在Hive表中有两列Id和Name,我想删除Name列。我使用了以下命令: ALTER TABLE 表名替换列(id 字符串); 结果是名字c...

回答 2 投票 0

Sqoop - 在保存的作业中使用架构

当我在 shell 上运行此命令时工作正常: sqoop 导入 --增量追加 --check-column id_civilstatus --last-value -1 --connect jdbc:postgresql://somehost/somedb --用户名 someuser --pas...

回答 4 投票 0

hive 达到最大工作线程数,无法连接到 hiveserver2

当我使用beeline连接到hiveserver2时,错误消息是这样的。 我之前已经连接到hiveserver2。 我连接到 hiveserver2 几次后会显示此错误。 我可以使用 jdbc 连接:

回答 1 投票 0

Hive 中的 date_format 函数给出错误的结果

我正在尝试使用命令 date_format 将字符串转换为微秒的日期 询问: 选择 date_format('2021-04-14 16:07:47.123456', 'yyyy-MM-dd HH:mm:ss.SSSSSS') 结果: 2021-04-14 1...

回答 1 投票 0

带有 SERDEPROPERTIES 的 Hive CREATE TABLE 语句会引发错误

我正在进行从 HDP 到 AWS EMR 的迁移项目。作为这项工作的一部分,我们使用 HDP 中的 CREATE TABLE 语句在 EMR Hive 中创建表,这是使用 show create 获得的

回答 1 投票 0

无法在 Hive 查询中定义动态参数

我正在尝试在 Hive 中设置一些视图,这些视图将日期作为动态参数。在我下面的工作中,我已改为在 Select 子句中使用 hiveconf 变量,这样我们就可以看到什么......

回答 2 投票 0

Hadoop:有 0 个数据节点正在运行,并且此操作中没有排除任何节点

我在VMware上部署了Hadoop集群。它们都运行在 CentOS 7 上。 在 Master 上发出命令 jps: [root@hadoopmaster 安娜]# jps 6225 名称节点 6995 资源管理器 6580 辅助名称节点 7254 日元 发出com...

回答 5 投票 0

Cat 文件与 HDFS 中的模式不匹配?

我正在尝试在 hadoop HDFS 中查找与以下模式不匹配的文件 hdfs dfs -cat /*.gz 如何捕获所有不以 .gz 结尾的文件? 编辑:抱歉,但我需要在 Hadoop 中查找文件,

回答 1 投票 0

hadooop 3.3.6 资源管理器不工作

我使用的是 ubuntu 22.04 电脑,带有 djk 17、java 11、hadoop 3.3.6 ````bash cd hadoop/hadoop-3.3.6/sbin ./start-all.sh ```` 输出: ```明文 警告:尝试启动所有 Apache Hadoop 守护进程...

回答 1 投票 0

提高此窗口密集型查询的性能

我在 HQL 中有以下代码。它从包含超过 25 亿行和大约 334 列的表中提取数据。运行需要一段时间,因此我正在寻找任何可能的潜在性能提升。 ...

回答 1 投票 0

Hadoop CDH4 和 Eclipse Juno

有人成功地针对 CDH4 安装为 Juno 构建了 eclipse 插件吗? 我在网上看到过CDH3。寻找CDH4。 非常感谢。

回答 3 投票 0

设计机架感知功能?

我想了解kafka、hadoop等产品中机架感知的设计。这些系统中是如何构建机架感知的,hadoop 如何知道哪个服务器位于

回答 1 投票 0

列统计(Hive)中字段bitVectors的含义是什么?

列统计测试 我从文档中获得了有关 Hive 列统计信息的信息。对于大多数列都归档了bitVectors,它的含义是什么,以及计算它的规则? 我创建了一些选项卡...

回答 1 投票 0

spark-3.0.0-bin-hadoop 和 Spark-yarn 一样吗?

我一直在尝试按照教程在 Windows 上安装 Spark: https://sparkbyexamples.com/spark/apache-spark-installation-on-windows/ 因为我想使用图书馆

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.