hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

与 webhdfs 相关的 web ui hadoop 错误

我使用的是单节点hadoop版本release-3.3.1-RC3。在 web ui hadoop 中的实用程序 -> 浏览文件系统下,可以直接查看文件的内容(开头和结尾)...

回答 1 投票 0

Hadoop 客户端.RMProxy:连接到 ResourceManager

Hadoop 客户端.RMProxy:连接到 ResourceManager 我在linux上设置单节点集群:http://tecadmin.net/setup-hadoop-2-4-single-node-cluster-on-linux/ 当我运行 MapReduce 应用程序时...

回答 3 投票 0

Pyspark 中的表显示 CSV 文件中的标题

我有一个 csv 文件,其内容如下,第一行有一个标题。 身份证号、姓名 第1234章 第8984章 现在我可以在配置单元中创建一个表来跳过标题并适当地读取数据。

回答 3 投票 0

“信息:Tez 会话尚未创建。正在打开会话”挂起

我正在使用 HDP 2.3.0.0-2557,我正在尝试运行如下所示的配置单元查询: 直线> !connect jdbc:hive2://localhost:10000 连接到 jdbc:hive2://localhost:10000 输入用户名...

回答 2 投票 0

Hive 数据存储在哪里?

我对配置单元在哪里存储数据有点困惑。 它将数据存储在 HDFS 还是 RDBMS 中? Hive Meta 存储是否使用 RDBMS 来存储 Hive 表元数据? 谢谢

回答 2 投票 0

基本配置单元插入作业无法工作,出现错误“容器以非零退出代码 127 退出。错误文件:prelaunch.err。”

hive> 插入 test.emp (sr_no,usr_name,city) 值 (10,"Prince","Kathmandu"); 查询 ID = Princemehta_20230311033859_3d7f53f2-3523-4a8b-840d-fcb6aa8729cd 职位总数 = 3

回答 3 投票 0

HDFS 到 HDFS 完全强制移动文件

据我所知,在从一个 HDFS 位置移动到另一个位置时,没有直接的选项可以覆盖 HDFS 中的文件,复制 cp 可以选择强制。我正在尝试寻找是否有...

回答 3 投票 0

端口不可用:listen tcp 0.0.0.0/50070:绑定:尝试以访问权限禁止的方式访问套接字

我正在尝试使用以下命令启动 docker 容器。 docker run -it -p 50070:50070 -p 8088:8088 -p 8080:8080 suhothayan/hadoop-spark-pig-hive:2.9.2 bash 最终得到以下 e...

回答 12 投票 0

使用 scala 计算重复单词的共现情况

我对scala非常陌生,现在我正在努力计算Dstream的每个RDD的单词共现频率。 到目前为止,当我没有重复的单词时,我的代码可以正常工作,但是当我这样做时......

回答 1 投票 0

Spark adls 从一个容器读取并使用不同的 SPN 写入另一个容器

在 pyspark 中,我使用 Azure 服务原则 (SPN) 访问 ADLS Gen2。我正在使用 Spark conf 设置 SPN 凭据。 Spark.conf.set("fs.azure.account.auth.type..dfs.

回答 1 投票 0

使用带有 Kerberos 身份验证的 JDBC 连接到 Hive 时出现问题

我正在尝试编写一个程序来使用具有 Kerberos 身份验证的 Jdbc 驱动程序连接到 Hive。我的程序如下: 公共静态无效主(字符串a []) { ... 连接字符串_ =...

回答 2 投票 0

Haddop 集群有 3 个活动节点,但资源管理器中只有 1 个活动节点

我使用来自 docker hub 的 apache/hadoop 镜像在 docker 上运行 hadoop。 我只是使用默认配置运行并添加 2 个模式数据节点 这是我的 docker-compose.yaml 版本:“2” 服务:

回答 1 投票 0

Jupyter Notebook 连接到远程配置单元

我正在尝试从我们公司远程服务器的 Hive 获取数据。我使用 Anaconda3(Windows 64 位),我的 Hadoop 在 Ambari 上运行。 我尝试过做这样的事情...... 导入发现公园 发现公园.i...

回答 1 投票 0

Spark parquet 数据帧分区数

我有一个 HDFS 文件夹,其中包含两个 250MB 的 parquet 文件。 hadoop df 块大小设置为 128MB。 有以下代码: JavaSparkContext SparkContext = new JavaSparkContext(); SQLContext

回答 2 投票 0

MapReduce 框架输出列表与完全确定值

我对MapReduce的初步理解是,它是为了解决reduce函数的输出与reduce函数的输入兼容的问题而设计的,这样就可以称为repea...

回答 1 投票 0

在hadoopyarn上运行pyspark无法连接到localhost/127.0.0.1:46311

当我在 hadoop 纱线中运行 pyspark 时: HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/ pyspark --master yarn --deploy-mode 客户端 它给了我这个: 引起原因:java.io.IOException:无法连接到

回答 1 投票 0

为什么我的辅助名称节点总是与名称节点在同一台机器上启动

我正在使用 Apache Hadoop 3.3.6。 我在 hdfs-site.xml 中进行了设置: dfs.namenode.secondary.https-地址 192.168.56.193:9869 我正在使用 Apache Hadoop 3.3.6。 我在 hdfs-site.xml 中进行了设置: <property> <name>dfs.namenode.secondary.https-address</name> <value>192.168.56.193:9869</value> </property> 但是启动时,我的辅助名称节点以与名称节点相同的IP(192.168.56.213)启动。我该如何解决它? 我尝试在互联网上搜索但无法收到任何满意的答案。 通过 SSH 连接到该服务器并显式启动辅助名称节点 $ ssh 192.168.56.193 $ $HADOOP_HOME/sbin/hadoop-daemon.sh start secondarynamenode 您可以通过检查 Hadoop 日志或运行以下命令来验证辅助 Namenode 是否正在运行: $ $HADOOP_HOME/bin/hdfs dfsadmin -report

回答 1 投票 0

如何删除Hive列?

我在Hive表中有两列Id和Name,我想删除Name列。我使用了以下命令: ALTER TABLE 表名替换列(id 字符串); 结果是名字c...

回答 2 投票 0

Sqoop - 在保存的作业中使用架构

当我在 shell 上运行此命令时工作正常: sqoop 导入 --增量追加 --check-column id_civilstatus --last-value -1 --connect jdbc:postgresql://somehost/somedb --用户名 someuser --pas...

回答 4 投票 0

hive 达到最大工作线程数,无法连接到 hiveserver2

当我使用beeline连接到hiveserver2时,错误消息是这样的。 我之前已经连接到hiveserver2。 我连接到 hiveserver2 几次后会显示此错误。 我可以使用 jdbc 连接:

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.