hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

有没有办法使用 Pydoop 将数据附加到 hdfs 文件?

我正在尝试使用 python 将对象的内容写入 hdfs 中的文件。为此,我找到了一个用 python 实现的 hdfs API,名为 Pydoop。阅读 API,我可以轻松使用 p 的 dump() 方法...

回答 2 投票 0

暂时不支持MERGE INTO TABLE。在hadoop hive环境中尝试将数据合并到冰山表中时

我需要对我的冰山表执行合并操作。我在 Aws emr 设置上使用 jupyter 笔记本。 Spark:'3.4.1-amzn-2' Hadoop:3.3.6 Hive:3.1.3 EMR 版本:6.15.0 Scala:'版本 2.1...

回答 1 投票 0

Hadoop 上的大型图形处理

我正在开发一个项目,涉及在大图上进行随机行走(太大而无法放入内存)。我使用 networkx 在 Python 中对其进行了编码,但很快,该图变得太大而无法容纳在内存中,所以我重新...

回答 2 投票 0

Hadoop:线程“main”中出现异常 java.lang.UnsupportedOperationException:不支持“posix:permissions”作为初始属性

C:\Users\sudha>hadoop jar "C:\hadoop\share\hadoop\mapreduce\hadoop-mapreduce-examples-3.4.0.jar" wordcount /newdir/HadoopSmall.txt /newdir/smallword 我正在使用这个命令来处理单词 co...

回答 1 投票 0

如何修复 Windows 电脑上的 java.nio.file.InvalidPathException:非法字符 <:>

位于索引4:文件:/C:/Users/john/AppData/Local/Temp/royalty-export1794031690892090231.parquet 在java.base/sun.nio.fs.WindowsPathParser。<:>

回答 1 投票 0

Hadoop文档中set错误吗

我的问题要求确认如何设置 Hadoop 作业的 I/O 路径。 事实上,Job API 的文档给出了示例: 来自https://hadoop.apache.org/docs/r3.3.5/api/org/apache/

回答 1 投票 0

活动 NameNode 崩溃

我需要一些帮助来解决根本原因。我怀疑这个问题可能与在 VMS 中运行的集群以及使用外部 Ceph 存储进行所有操作有关,但我需要确认。以下是...

回答 1 投票 0

如何在 fs.azure.account.oauth2.msi.endpoint 中动态设置“api-version”

目前我正在通过 pyspark 库使用 hadoop-azure-3.4.1 连接到 ABFS。根据文档 - https://hadoop.apache.org/docs/stable/hadoop-azure/abfs.html#Azure_Managed_Identity -...

回答 1 投票 0

Pydoop 在大数据分析和数据科学中的重要性

我是数据科学和大数据框架的新手。 可以说,我有一个 CSV 格式的数据集输入。 我从 Google 和其他资源中发现了有关数据分析师和数据科学家日常工作的信息, 一旦使用...

回答 2 投票 0

如何在macos m2芯片上构建hadoop源代码

我正在尝试在macOS(m2芯片)系统版本macOS Ventura上构建hadoop源代码。 问题: ld:警告:忽略文件 '/Library/Java/JavaVirtualMachines/zulu-8.jdk/Contents/Home/jre/...

回答 1 投票 0

Apache Oozie 工作流程中的 Java 操作

我正在尝试配置 Apache Oozie 工作流程以根据一周中的某一天执行不同的操作。阅读完 https://stackoverflow.com/questions/71422257/oozie-coordinator-get-day...

回答 1 投票 0

Nifi 处理器基于 cron 的调度

这是我尝试过的语法 0 30 0 * * ?或 0 30 1 * * ?,应分别在午夜 12:30 或 1:30 运行。 另外,我厌倦了每 20 分钟在 NiFi 中使用 cron 运行一次流程,...

回答 4 投票 0

Hadoop IOException 登录失败

我对 Hadoop 还很陌生。不过,我已经能够在我的服务器上以集群模式成功设置带有 Java 7 的 hadoop 2.7.3。一切都很好。 但是,当我尝试切换到...

回答 3 投票 0

Apache NiFi 2.0.0 中缺少 PutHDFS 处理器

我使用的是 Apache NiFi 2.0.0,不幸的是它不包括 PutHDFS 处理器。我的项目需要这个版本的 NiFi,因为它具有与 Python 脚本的集成功能,所以升级...

回答 1 投票 0

Apache Nifi:Puthdfs 处理器 - 复制到 0 个节点,而不是 minReplication (= 1)。有 1 个数据节点正在运行,1 个节点被排除

我正在使用 Apache NIFI 1.28 版本,我正在尝试创建一个简约的数据流,我在其中生成数据并希望在 HDP(Hortonworks 数据平台)2.5.0 中摄取 HDFS,我正在...

回答 1 投票 0

Apache Nifi:PutHDFS 处理器问题 - PutHDFS 无法写入 HDFS java.lang.NoClassDefFoundError:org/apache/hadoop/conf/Configurable

我正在使用 Apache NIFI 1.28 版本,我正在尝试创建一个简约的数据流,我在其中生成数据并希望在 HDP(Hortonworks 数据平台)2.5.0 中摄取 HDFS,我正在...

回答 1 投票 0

如何检查namenode返回哪个HDFS datanode ip到spark?

如果我在 PySpark 中读取/写入数据帧并指定 HDFS 名称节点主机名和端口: df.write.parquet("hdfs://namenode:8020/test/go", mode="覆盖") 有什么办法

回答 1 投票 0

hadoop 中的数据存储复制与云中的雪花

在hadoop中,数据被复制三次(默认)以实现容错 例如:如果输入数据大小为 5 GB,则数据将被复制为 15 GB,并在转换后将数据存储在其他

回答 2 投票 0

如何在 Laravel 5.2 中使用 hadoop

我尝试搜索,但仍然没有太多例子。 任何人都可以给我一些 Laravel hadoop 集成的教程吗? 正如在我的开发中我想要连接 mysql 和 h...

回答 2 投票 0

在运行hadoop时立即关闭NameNode数据节点资源管理器等

C:\hadoop-3.3.6\sbin>.\start-dfs.cmd 运行上面的命令后,命令提示符会打开 datanode 和 namenode,但它立即关闭,我该怎么办 java.io.IOException:全部指定

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.