hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

在ubuntu上哪里安装jdbc驱动?

我正在尝试在 ubuntu 上安装 MS SQL JDBC 驱动程序,以便与 sqoop for Hadoop 一起使用。我对 java 和 linux 完全陌生,所以我不确定将所有内容提取到哪里。

回答 4 投票 0

hadoop-azure 与 DefaultAzureCredential

我们开发了一个spark应用程序,并使用abfss协议来消费azure存储中的数据。 Abfss 支持各种身份验证方法(如访问密钥、客户端信用、msi 等)。但是,我们想使用

回答 1 投票 0

Parquet 模式管理

我最近开始从事一个新项目,我们使用 Spark 以 Parquet 格式写入/读取数据。该项目正在迅速变化,我们确实需要改变 parquet 的架构

回答 1 投票 0

Hadoop namenode 未以退出代码 1 开始

prateek@prateek:~$ start-dfs.sh 在 [localhost] 上启动名称节点 pdsh@prateek:本地主机:ssh 退出,退出代码为 1 启动数据节点 启动辅助名称节点 [prateek] prateek@prateek:~$ jps

回答 4 投票 0

新的 hiveCof() 初始化错误“java.lang.ClassNotFoundException:org.apache.hadoop.mapred.JobConf”

我在使用Flink写带有hive目录的Paimon表时遇到了异常。 java.lang.ClassNotFoundException:org.apache.hadoop.mapred.JobConf 在 java.net.URLClassLoader.findClass(

回答 1 投票 0

fsimage hdfs 的内容

我有一个关于 fsimage 中的元数据是什么的问题。我读到文件系统名称空间的所有突变,例如文件重命名、权限更改、文件创建、块分配...

回答 4 投票 0

如何在本地Windows机器上使用python将csv文件加载到hive表中

我们在我们组织的 Linux 服务器上安装了企业 hadoop 集群。我正在尝试将 csv 文件插入到我们的配置单元表之一中。我的本地 Windows 机器中有 csv 文件。我正在使用

回答 1 投票 0

hadoop HA 与 qjm 错误安装

这是我第一次使用 qjs 安装 Hadoop HA,至少整整一周我都遇到了很多麻烦。 实验室设置如下 10.0.0.10 动物园1 solr1 had1 10.0.0.11 动物园2 solr2 had2 10....

回答 1 投票 0

hadoop 中“uber 模式”的目的是什么?

嗨,我是大数据新手。我在互联网上搜索了到底什么是超级模式。我搜索得越多,我就越困惑。有人可以帮助我回答我的问题吗? 什么

回答 5 投票 0

为什么HIVE必须用“”分割字符串? 【b4 0.11.0是可以,0.11.0以后可以指定】

hive 表中有一些字符串,我使用转换方法替换一些字符,我的映射器脚本如下所示: hive 表中有一些字符串,我使用转换方法替换一些字符,我的映射器脚本如下所示: <?php $strFrom = "\7"; $strTo = "\1"; // "|" it works well $fd = fopen("php://stdin", "r"); while($line = fgets($fd)){ $outStr = str_replace($strFrom, $strTo, $line); print $outStr; } fclose($fd); 我的 hive sql 是这样的: select transform (value) using 'home/php/bin/php -c home/php/etc/php.ini replace.php' as (v1 string) from test_tbl 实际上我尝试将字符串从“”替换为“”,但我发现它似乎替换正确,但它只输出第一列。像这样的一个输入: a\7b\7c\7d 然后输出如下: a 是的,只有一栏! 如果我将其替换为“|”,则会输出: a|b|c|d 所以我很困惑,为什么 hive 必须用“”分割字符串?我怎样才能禁止它?我只想得到: a\1b\1c\1d 我在这里找到了答案。 写入文件系统的数据被序列化为文本,列由 ^A 分隔,行由换行符分隔。 从 Hive 0.11.0 开始,可以指定使用的分隔符,在早期版本中它始终是 ^A 字符 ( ) 感谢所有看到这个问题的人。

回答 1 投票 0

使用 Hive 和 Hadoop 设置 Presto:加载 Hadoop 本机库时出错

我正在尝试在 Hive 也已启动并运行的机器上配置单节点 Presto,还安装了 3 节点 Hadoop 集群并在单独的 3 台机器上运行。以下是我的配置...

回答 1 投票 0

更改 dfs 文件的块大小

我的地图目前在解析一组特定文件(总共 2 TB)时效率很低。我想更改 Hadoop dfs 中文件的块大小(从 64MB 到 128 MB)。我找不到如何...

回答 5 投票 0

hadoop 将本地文件系统文件夹复制到 HDFS

我需要将一个文件夹从本地文件系统复制到HDFS。我找不到任何将文件夹(包括其所有子文件夹)移动到 HDFS 的示例 $ hadoop fs -copyFromLocal /home/ubuntu/Source-Folder-To-

回答 8 投票 0

HDFS:尝试编辑已挂载的 NFS 卷中的现有文件时出现错误 22

总结:我在 OSX 中安装了 HDFS nfs 卷,它不允许我编辑现有文件。我可以附加和创建包含内容的文件,但不能“使用写入标志打开它们”。 本来我问的是...

回答 1 投票 0

java.io.IOException:无法运行程序“/home/user/anaconda3/bin/python3”:错误= 13,权限被拒绝

我遇到了一些问题,这是在yarn上执行PySpark时发生的。 处理rdd时报如下错误: WARN Scheduler.TaskSetManager: Lost task 0.2 in stage 0.0 (TID 2, node03, exec...

回答 1 投票 0

MapReduce 作业因 OOM 而失败 [org.apache.hadoop.mapreduce.v2.app.MRAppMaster:启动 MRAppMaster 时出错]

我向 MapReduce 作业中的 FileInputFormat 提供逗号分隔的文件名。我的数据总大小是 30Gb 压缩的 snappy orc 文件。 当我的地图缩减工作立即开始时...

回答 1 投票 0

启用Kerberos后无法访问Hadoop CLI

我按照以下教程CDH Hadoop Kerberos、NameNode和DataNode能够正常启动,并且我能够看到WebUI上列出的所有DataNode(0.0.0.0:50070)。但我无能为力

回答 2 投票 0

HDFS 数据节点:无法将主机名解析为 IP 地址

我正在使用 Docker、VirtualBox 和 Ubuntu 24.04 配置带有 Hadoop 生态系统的虚拟机。目前,我正在使用 docker-compose.yaml 来运行多个服务,包括 namenode、datanode、

回答 1 投票 0

配置spark默认从hdfs读取数据

我已经安装了HDFS和Spark。但是,如何配置 Spark 默认从 hdfs://localhost:9000/ 读取?目前,要将文件加载到 Spark DataFrame 中,我需要编写spark.read.load(&...

回答 1 投票 0

`hbase:meta`区域不在线的问题

日志显示 hbase master 未初始化 2024-08-06 13:53:49,324 INFO [ProcExecTimeout] 分配。AssignmentManager:在失效服务器上发现 0 个开放区域,在未知的服务器上发现 240 个开放区域

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.