hdfs 相关问题

Hadoop分布式文件系统（HDFS）是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本，并将它们分布在整个集群中的数据节点上，以实现可靠的计算，并计算商用硬件上的大量数据。

Spark 基于多个分区（即 DATE_KEY 和 BASE_FEED）读取镶木地板文件

我正在使用 PySpark 从按 DATE_KEY 分区的 HDFS 位置读取镶木地板文件。以下代码始终从 MAX(DATE_KEY) 分区读取文件并转换为 Polars 数据帧。定义

apache-spark pyspark hdfs python-polars pyarrow

回答 1 投票 0

如何在Spark中检查HDFS目录是否为空

我正在使用org.apache.hadoop.fs来检查HDFS中的目录是否为空。我查找了 FileSystem api，但找不到任何接近它的东西。基本上我想检查目录是否...

api apache-spark hadoop hdfs

回答 3 投票 0

awk 如何处理 HDFS 的目录？

我想将HDFS的目录名与awk结合起来。这可行吗？目录名，而不是文件名。这是我在本地的 awk 工作正常： awk 'NR <= 1000 && FNR == 1{print

shell awk hdfs

回答 1 投票 0

Hive 将数据存储在哪里？

我对 Hive 存储数据的位置有点困惑。它将数据存储在 HDFS 还是 RDBMS 中？ Hive Metastore 是否使用 RDBMS 来存储 Hive 表元数据？

hadoop hive hdfs create-table hive-metastore

回答 2 投票 0

过滤掉非目录inode的hdfs审计日志

我正在使用logstash 将 HDFS 审核日志消息填充到 Kafka 主题中。我在 Kafka 主题中收到的示例消息具有以下格式： allowed=true ugi={myuser} (auth:SIMPLE) ip={/x.x.x...

hadoop apache-kafka hdfs logstash audit-logging

回答 1 投票 0

使用本地文件进行 Spark 流式处理（Python）

有没有办法扫描本地文件系统以查找特定文件夹中的更改，就像使用 HDFS （GitHub 示例）一样？使用常规路径或带有 hdfs:// 的 URI 运行它似乎可以工作，但是使用...

python hadoop apache-spark hdfs pyspark

回答 1 投票 0

运行 Spark-shell 时出现错误：SparkContext：初始化 SparkContext 时出错

我在三个节点上成功安装了spark。我可以访问 Spark Web UI 并发现每个工作节点和主节点都处于活动状态。我可以成功运行 SparkPi 示例。我的集群信息： 10.45.10.33(

hadoop apache-spark hdfs

回答 2 投票 0

如何将 sas7bdat 文件转换为 csv？

我想将 .sas7bdat 文件转换为 .csv/txt 格式，以便我可以将其上传到配置单元表中。我从外部服务器接收 .sas7bdat 文件，但我的计算机上没有 SAS。

csv hadoop hive sas hdfs

回答 6 投票 0

‘save’目前不支持bucketBy和sortBy

当使用下面的命令将数据帧保存在 HDFS 上时，我尝试在数据帧上应用分桶。 df.写入 .format("镶木地板") .bucketBy(200,"groupIdProjection") .sortBy("

apache-spark hdfs bucketing

回答 1 投票 0

FileNotFound hadoop 而在那里

我正在尝试制作一个Map-reduce程序，它将执行2个周期。第一个映射缩减周期将创建一个包含 2 个键|值对的文件。然后我需要在

java hadoop hdfs

回答 1 投票 0

从包含空格的路径加载hdfs文件到hive表

我正在尝试从带有分区的镶木地板文件创建一个配置单元表。创建外部表 a(col1 string, col2 string)，由 (col3 string) 分区，存储为镶木地板位置 '/qa/app/project/'；微软

hive hdfs space

回答 1 投票 0

任何人都可以帮我解决这个问题，同时尝试在ubuntu上安装hadoop吗？

当我尝试在 ubuntu 上安装 hadoop 时，我已经收到这个错误很长时间了。 :~/hadoop$ bin/hdfs namenode -format 无法识别的选项：- 错误：无法创建 Java 虚拟机....

java ubuntu hadoop hdfs namenode

回答 1 投票 0

HDFS 由于“状态备用时不支持操作类别 WRITE”而出现许多坏块 - 了解为什么 datanode 找不到 Active NameNode

最近我想将集群从2.6.5升级到3.1.3，但失败了。所以我将版本回滚到旧版本。但是发生了一些奇怪的事情。我们集群的datanode无法将块的情况报告给...

hadoop hdfs

回答 1 投票 0

使用正则表达式分隔符将数据加载到 Hive 表时获取额外的空值

我在hdfs上的一个文件中有以下5行数据。我想将其加载到表中。我有正则表达式可以做到这一点，但它为每行数据加载一行额外的空值。有谁知道吗...

hive null hdfs hive-serde

回答 1 投票 0

安装hadoop时出现“HADOOP_COMMON_HOME”错误

我第一次在 VMFusion 上的 Ubuntu 18.04 上安装 hadoop (3.2.2)。在安装结束时，当我运行“hdfs namenode -format”时，它显示：错误：无效的 HADOOP_COMMON_HOME。这是...

ubuntu hadoop hdfs

回答 2 投票 0

gzip 文件如何存储在 HDFS 中

HDFS存储支持压缩格式来存储压缩文件。我知道 gzip 压缩不支持夹板。现在想象一下该文件是一个 gzip 压缩文件，其压缩大小为 1 G...

algorithm hadoop compression hdfs gzip

回答 2 投票 0

配置在windows上运行的pentaho 9.3来访问linux上的hadoop集群和目录

我已经在 Linux 上的两个节点集群上安装了 Hadoop，并且它运行完美，在 3 个虚拟机上，我在 Windows 上安装了 Pentaho，我正在尝试创建与集群的连接，但是...

linux windows hadoop hdfs pentaho

回答 1 投票 0

如何连接远程HDFS

我正在尝试连接到远程计算机上运行的 HDFS 实例。我在 Windows 机器上运行 eclipse，而 HDFS 在 Unix 机器上运行。这是我尝试过的配置...

java hadoop hdfs remote-access

回答 1 投票 0

hadoop安装期间无法运行yarn

我正在本地 Windows 计算机上安装 HDFS。我遵循的安装指南是 https://github.com/MuhammadBilalYar/Hadoop-On-Window/wiki/Step-by-step-Hadoop-2.8.0-installation-on-Window...

hadoop hdfs hadoop-yarn

回答 4 投票 0

合并存储在 HDFS 中的 Solr 索引不起作用

我正在尝试使用 org/apache/lucene/misc/IndexMergeTool 将两个 Solr 核心索引合并到新索引中。所有索引都保存在 HDFS 上的路径 /apps/solr/data/collection_name/data/index 下。所以我创造了...

solr lucene hdfs hdp

回答 1 投票 0

hdfs 相关问题

最新问题