hdfs 相关问题

Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。

Spark 基于多个分区(即 DATE_KEY 和 BASE_FEED)读取镶木地板文件

我正在使用 PySpark 从按 DATE_KEY 分区的 HDFS 位置读取镶木地板文件。以下代码始终从 MAX(DATE_KEY) 分区读取文件并转换为 Polars 数据帧。 定义

回答 1 投票 0

如何在Spark中检查HDFS目录是否为空

我正在使用org.apache.hadoop.fs来检查HDFS中的目录是否为空。我查找了 FileSystem api,但找不到任何接近它的东西。基本上我想检查目录是否...

回答 3 投票 0

awk 如何处理 HDFS 的目录?

我想将HDFS的目录名与awk结合起来。这可行吗?目录名,而不是文件名。 这是我在本地的 awk 工作正常: awk 'NR <= 1000 && FNR == 1{print

回答 1 投票 0

Hive 将数据存储在哪里?

我对 Hive 存储数据的位置有点困惑。 它将数据存储在 HDFS 还是 RDBMS 中? Hive Metastore 是否使用 RDBMS 来存储 Hive 表元数据?

回答 2 投票 0

过滤掉非目录inode的hdfs审计日志

我正在使用logstash 将 HDFS 审核日志消息填充到 Kafka 主题中。 我在 Kafka 主题中收到的示例消息具有以下格式: allowed=true ugi={myuser} (auth:SIMPLE) ip={/x.x.x...

回答 1 投票 0

使用本地文件进行 Spark 流式处理(Python)

有没有办法扫描本地文件系统以查找特定文件夹中的更改,就像使用 HDFS (GitHub 示例)一样?使用常规路径或带有 hdfs:// 的 URI 运行它似乎可以工作,但是使用...

回答 1 投票 0

运行 Spark-shell 时出现错误:SparkContext:初始化 SparkContext 时出错

我在三个节点上成功安装了spark。我可以访问 Spark Web UI 并发现每个工作节点和主节点都处于活动状态。 我可以成功运行 SparkPi 示例。 我的集群信息: 10.45.10.33(

回答 2 投票 0

如何将 sas7bdat 文件转换为 csv?

我想将 .sas7bdat 文件转换为 .csv/txt 格式,以便我可以将其上传到配置单元表中。 我从外部服务器接收 .sas7bdat 文件,但我的计算机上没有 SAS。

回答 6 投票 0

‘save’目前不支持bucketBy和sortBy

当使用下面的命令将数据帧保存在 HDFS 上时,我尝试在数据帧上应用分桶。 df.写入 .format("镶木地板") .bucketBy(200,"groupIdProjection") .sortBy("

回答 1 投票 0

FileNotFound hadoop 而在那里

我正在尝试制作一个Map-reduce程序,它将执行2个周期。第一个映射缩减周期将创建一个包含 2 个键|值对的文件。然后我需要在

回答 1 投票 0

从包含空格的路径加载hdfs文件到hive表

我正在尝试从带有分区的镶木地板文件创建一个配置单元表。 创建外部表 a(col1 string, col2 string),由 (col3 string) 分区,存储为镶木地板位置 '/qa/app/project/'; 微软

回答 1 投票 0

任何人都可以帮我解决这个问题,同时尝试在ubuntu上安装hadoop吗?

当我尝试在 ubuntu 上安装 hadoop 时,我已经收到这个错误很长时间了。 :~/hadoop$ bin/hdfs namenode -format 无法识别的选项:- 错误:无法创建 Java 虚拟机....

回答 1 投票 0

HDFS 由于“状态备用时不支持操作类别 WRITE”而出现许多坏块 - 了解为什么 datanode 找不到 Active NameNode

最近我想将集群从2.6.5升级到3.1.3,但失败了。所以我将版本回滚到旧版本。但是发生了一些奇怪的事情。我们集群的datanode无法将块的情况报告给...

回答 1 投票 0

使用正则表达式分隔符将数据加载到 Hive 表时获取额外的空值

我在hdfs上的一个文件中有以下5行数据。我想将其加载到表中。我有正则表达式可以做到这一点,但它为每行数据加载一行额外的空值。有谁知道吗...

回答 1 投票 0

安装hadoop时出现“HADOOP_COMMON_HOME”错误

我第一次在 VMFusion 上的 Ubuntu 18.04 上安装 hadoop (3.2.2)。在安装结束时,当我运行“hdfs namenode -format”时,它显示:错误:无效的 HADOOP_COMMON_HOME。 这是...

回答 2 投票 0

gzip 文件如何存储在 HDFS 中

HDFS存储支持压缩格式来存储压缩文件。我知道 gzip 压缩不支持夹板。现在想象一下该文件是一个 gzip 压缩文件,其压缩大小为 1 G...

回答 2 投票 0

配置在windows上运行的pentaho 9.3来访问linux上的hadoop集群和目录

我已经在 Linux 上的两个节点集群上安装了 Hadoop,并且它运行完美,在 3 个虚拟机上,我在 Windows 上安装了 Pentaho,我正在尝试创建与集群的连接,但是...

回答 1 投票 0

如何连接远程HDFS

我正在尝试连接到远程计算机上运行的 HDFS 实例。 我在 Windows 机器上运行 eclipse,而 HDFS 在 Unix 机器上运行。这是我尝试过的 配置...

回答 1 投票 0

hadoop安装期间无法运行yarn

我正在本地 Windows 计算机上安装 HDFS。我遵循的安装指南是 https://github.com/MuhammadBilalYar/Hadoop-On-Window/wiki/Step-by-step-Hadoop-2.8.0-installation-on-Window...

回答 4 投票 0

合并存储在 HDFS 中的 Solr 索引不起作用

我正在尝试使用 org/apache/lucene/misc/IndexMergeTool 将两个 Solr 核心索引合并到新索引中。 所有索引都保存在 HDFS 上的路径 /apps/solr/data/collection_name/data/index 下。 所以我创造了...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.