hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

Flink 任务管理器使用 Flink Kubernetes Operator 处理卷“hadoop-config-volume”失败

我正在使用 Flink Kubernetes Operator 版本 1.1.0 开发一个应用程序,但在生成的任务管理器 Pod 中收到以下错误消息: 卷“hadoop-config-

回答 3 投票 0

在 Hadoop 2.0 中处理超过 300 万个小文本文件

我正在寻找以下问题陈述的解决方案(在HADOOP 2.2+版本中)。 问题陈述: 我们每天需要处理超过 300 万个文件。我们是 有兴趣捕捉...

回答 1 投票 0

Spark 中的血统是什么?

谱系如何帮助重新计算数据? 例如,我有多个节点,每个节点计算 30 分钟的数据。如果15分钟后失败,我们可以再次使用

回答 5 投票 0

Spark是否支持像SQL一样的WITH子句?

我在Spark中有一个表employee_1,具有属性id和name(带数据),另一个表employee_2具有相同的属性。我想通过将 id 值加 +1 来加载数据。 我的与

回答 2 投票 0

我使用hadoop时无法打开localhost:8088

在hadoop中配置完所有*.xmls文件后。我使用命令: ./sbin/start-all.sh 一切顺利我使用 jps 检查进程,所有进程都在运行。 但是当我访问 localhost:80...

回答 2 投票 0

使用 jceks 密码文件的 Hadoop 凭证

创建hadoop凭证时使用: hadoop凭证创建mysql.password -provider jceks://file/home/mahadev.duary/credential.jceks 它显示以下错误:[mahadev.duary@ip-10-0-...

回答 1 投票 0

使用密码文件的 Hadoop 凭证

我正在查看 Hadoop Credentials 的文档,如 https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/CredentialProviderAPI.html 但是在使用第三个

回答 1 投票 0

在 EMR 中使用密码文件的 Hadoop 凭证

使用以下命令创建hadoop凭证时:hadoop credential create mysql.password -provider jceks://file/home/mahadev.duary/credential.jceks 它显示以下错误: hadoop 凭证创建...

回答 1 投票 0

Apache Hive 中的 DECIMAL 是固定长度类型吗?

在 Apache Hive 中如何获取 DECIMAL 的长度,如果它是固定长度类型,例如 16 字节或不是? 我没有在文档中找到信息,如果它有一些方法来获取长度,比如...

回答 1 投票 0

配置 hadoop-azure abfs 驱动程序以作为 az CLI 用户使用存储帐户进行身份验证

我正在尝试弄清楚如何配置 ABFS - Azure Data Lake Storage Gen2 驱动程序,以便在通过 Azure CLI 登录的用户(普通用户)时使用 Azure 存储帐户进行身份验证。 我们可以...

回答 1 投票 0

java.net.URISyntaxException:绝对 URI 中的相对路径

我需要读取存储在我的项目资源中的文件,目录是src/main/resources/dataset/dataset.dat。 我使用以下几行 Scala 代码从 HDFS 读取文本文件并解析为

回答 1 投票 0

使用 hadoop 字数统计显示输出时出现问题

我是 Hadoop 的新手,我想使用 WordCount 执行 Hadoop 语法来统计单词数。但是,为什么当我尝试显示输出时,它没有出现?我希望得到解释...

回答 1 投票 0

Windows 上的 hadoop 中启动容器时出错

我正在 Windows 上运行地图缩减作业,它给了我这个错误。说明容器启动出现异常。 堆栈跟踪:ExitCodeException exitCode=1:“/tmp/hadoop-user”不是

回答 1 投票 0

指定的分区列与表的分区列不匹配。请使用()作为分区列

这里我试图将数据帧持久保存到分区的配置单元表中并得到这个愚蠢的异常。我已经检查过很多次了,但找不到问题所在。 org.apache.spark.sql.

回答 1 投票 0

Hive中的decimal是定长类型吗?

Hive中如何获取小数的长度,如果是固定长度类型,比如16字节或者不是。 文档中没有找到信息,如果有一些方法可以获取长度,比如一些函数,我...

回答 1 投票 0

Yarn 节点管理器未启动。没有错误

我在 Ubuntu 16.04 上安装了 Hadoop 2.7.4。我正在尝试以伪模式运行它。 我为所有 hadoop 文件、NameNode 和 DataNode 文件安装了一个“/hadoop”分区。 我的 core-site.xml 是: ...

回答 2 投票 0

hadoop distcp通过java导致NoClassDefFoundError:无法初始化类com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem

我正在尝试使用 Hadoop Java 库在我的 hadoop 集群上运行 distcp 命令,将内容从 HDFS 移动到 Google Cloud Bucket。我收到错误 NoClassDefFoundError: Could not

回答 2 投票 0

NodeManager启动时关闭

我在我的笔记本电脑上运行了hadoop。当hadoop启动时,我执行命令start-all.cmd。然后它以 4 个守护进程启动。 cmd 显示 4 个进程中的 3 个 SHUTDOWN_MSG:正在关闭NameNod...

回答 4 投票 0

通过控制 HDFS 中的物理文件/块位置来减少 Spark Shuffle 读/写

设置: 我们每小时在 hdfs 中接收 gzip 压缩的 csv 文件(例如每 24 小时 1k+ 个文件)。这些文件组织在文件夹结构 /data//// 中 设置: 我们每小时在 hdfs 中接收 gzip 压缩的 csv 文件(例如每 24 小时 1k+ 个文件)。这些文件组织在文件夹结构中 /data/<year>/<month>/<day>/<hour>/<unique_id>.csv.gz. 我们的 etl 流程(spark 应用程序每天运行一次。在该管道中,我们 阅读当天的所有文件, 应用一些变换, 按小时重新分区整个数据集并将结果写回 hdfs(每天产生 24 个 avro 文件)。 观察: 在监视 Spark 作业时,我可以看到很多 shuffle 操作(还涉及通过网络传输大量数据,尤其是在步骤 2 和 3 之间)。在步骤 1/2 中,为每个文件创建一个任务,该任务安排在提供最佳局部性级别 (PROCESS_LOCAL) 的执行器节点上。在步骤 3 中,我们每小时执行一个任务(总共 24 个任务),每个任务将一个 avro 文件写回 hdfs。 这些大型 shuffle 操作的原因是特定小时的输入 csv 文件物理上位于 hdfs 中的多个不同集群节点。读取/转换操作后,特定小时的所有记录都需要发送到单个执行器,该执行器在步骤 3 中运行该小时的写入任务。 优化思路: 为了优化这个过程,我们的想法是以某种方式物理定位同一节点同一小时内的所有原始 csv 文件/块。我们不会摆脱洗牌操作,但这主要需要执行器节点上的本地洗牌读/写,并最大限度地减少网络流量。在这一点上,还值得一提的是,网络带宽在我们的集群中是非常有限的资源。因此,Spark 应用程序大部分时间都在整理数据。 是否有可能在上传过程中或者通过按 cron 计划运行的单独脚本来影响/控制 hdfs 中文件的物理位置? 还有其他选项可以优化/简化此流程吗? 作为一种可能的解决方案,不要将多个 .gz 文件写入一个小时,而是尝试将数据附加到 hdfs 文件。这可能更容易实现

回答 1 投票 0

Mongodb Spark Connector 调用 o67.showString 时出错

我使用下面的Python代码从Spark中的“MongoDB”读取数据并将其转换为DataFrame: 从 pyspark.sql 导入 SparkSession # 初始化 Spark 会话 火花 = SparkSession.b...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.