hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

java.net.URISyntaxException:绝对 URI 中的相对路径

我需要读取存储在我的项目资源中的文件,目录是src/main/resources/dataset/dataset.dat。 我使用以下几行 Scala 代码从 HDFS 读取文本文件并解析为

回答 1 投票 0

使用 hadoop 字数统计显示输出时出现问题

我是 Hadoop 的新手,我想使用 WordCount 执行 Hadoop 语法来统计单词数。但是,为什么当我尝试显示输出时,它没有出现?我希望得到解释...

回答 1 投票 0

Windows 上的 hadoop 中启动容器时出错

我正在 Windows 上运行地图缩减作业,它给了我这个错误。说明容器启动出现异常。 堆栈跟踪:ExitCodeException exitCode=1:“/tmp/hadoop-user”不是

回答 1 投票 0

指定的分区列与表的分区列不匹配。请使用()作为分区列

这里我试图将数据帧持久保存到分区的配置单元表中并得到这个愚蠢的异常。我已经检查过很多次了,但找不到问题所在。 org.apache.spark.sql.

回答 1 投票 0

Hive中的decimal是定长类型吗?

Hive中如何获取小数的长度,如果是固定长度类型,比如16字节或者不是。 文档中没有找到信息,如果有一些方法可以获取长度,比如一些函数,我...

回答 1 投票 0

Yarn 节点管理器未启动。没有错误

我在 Ubuntu 16.04 上安装了 Hadoop 2.7.4。我正在尝试以伪模式运行它。 我为所有 hadoop 文件、NameNode 和 DataNode 文件安装了一个“/hadoop”分区。 我的 core-site.xml 是: ...

回答 2 投票 0

hadoop distcp通过java导致NoClassDefFoundError:无法初始化类com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem

我正在尝试使用 Hadoop Java 库在我的 hadoop 集群上运行 distcp 命令,将内容从 HDFS 移动到 Google Cloud Bucket。我收到错误 NoClassDefFoundError: Could not

回答 2 投票 0

NodeManager启动时关闭

我在我的笔记本电脑上运行了hadoop。当hadoop启动时,我执行命令start-all.cmd。然后它以 4 个守护进程启动。 cmd 显示 4 个进程中的 3 个 SHUTDOWN_MSG:正在关闭NameNod...

回答 4 投票 0

通过控制 HDFS 中的物理文件/块位置来减少 Spark Shuffle 读/写

设置: 我们每小时在 hdfs 中接收 gzip 压缩的 csv 文件(例如每 24 小时 1k+ 个文件)。这些文件组织在文件夹结构 /data//// 中 设置: 我们每小时在 hdfs 中接收 gzip 压缩的 csv 文件(例如每 24 小时 1k+ 个文件)。这些文件组织在文件夹结构中 /data/<year>/<month>/<day>/<hour>/<unique_id>.csv.gz. 我们的 etl 流程(spark 应用程序每天运行一次。在该管道中,我们 阅读当天的所有文件, 应用一些变换, 按小时重新分区整个数据集并将结果写回 hdfs(每天产生 24 个 avro 文件)。 观察: 在监视 Spark 作业时,我可以看到很多 shuffle 操作(还涉及通过网络传输大量数据,尤其是在步骤 2 和 3 之间)。在步骤 1/2 中,为每个文件创建一个任务,该任务安排在提供最佳局部性级别 (PROCESS_LOCAL) 的执行器节点上。在步骤 3 中,我们每小时执行一个任务(总共 24 个任务),每个任务将一个 avro 文件写回 hdfs。 这些大型 shuffle 操作的原因是特定小时的输入 csv 文件物理上位于 hdfs 中的多个不同集群节点。读取/转换操作后,特定小时的所有记录都需要发送到单个执行器,该执行器在步骤 3 中运行该小时的写入任务。 优化思路: 为了优化这个过程,我们的想法是以某种方式物理定位同一节点同一小时内的所有原始 csv 文件/块。我们不会摆脱洗牌操作,但这主要需要执行器节点上的本地洗牌读/写,并最大限度地减少网络流量。在这一点上,还值得一提的是,网络带宽在我们的集群中是非常有限的资源。因此,Spark 应用程序大部分时间都在整理数据。 是否有可能在上传过程中或者通过按 cron 计划运行的单独脚本来影响/控制 hdfs 中文件的物理位置? 还有其他选项可以优化/简化此流程吗? 作为一种可能的解决方案,不要将多个 .gz 文件写入一个小时,而是尝试将数据附加到 hdfs 文件。这可能更容易实现

回答 1 投票 0

Mongodb Spark Connector 调用 o67.showString 时出错

我使用下面的Python代码从Spark中的“MongoDB”读取数据并将其转换为DataFrame: 从 pyspark.sql 导入 SparkSession # 初始化 Spark 会话 火花 = SparkSession.b...

回答 1 投票 0

Gradle 运行显示此错误“由以下原因引起:java.io.FileNotFoundException:Hadoop 主目录 C:hadoopbin 不是绝对路径。”

我正在尝试在 Intellij 上设置 Gradle,当我运行程序时,我不断收到此错误,似乎该错误是由于 HADOOP_HOME 路径引起的,我尝试过使用它,但出现错误

回答 1 投票 0

在蜂巢中查找排名

我有一组数据 亚历克斯,50 阿努, 85 利米, 41 萨姆,56 我需要找到学生的排名并将其存储在带有排名的另一列中 例如:- 亚历克斯 50 3 阿努 85 1 利米 41 4 萨姆 56 2...

回答 1 投票 0

hadoop fs -ls 仅存储文件的路径

我正在查看 Hadoop 文件系统。通过命令 hadoop fs -ls /路径/到/dir1* 我将查看以 dir1 开头的每个目录并返回它们的文件 输出将是一些...

回答 4 投票 0

无法创建数据框

我正在尝试运行一个简单的 PySpark 程序来测试。 这是我的代码 ` 如果 __name__ == "__main__": 火花 = SparkSession.builder \ .appName("欢迎火花") \ .

回答 1 投票 0

*.csv 用于读取多个文件,在使用 pyspark 时对我不起作用

我在本地运行 Spark 时遇到 *.csv 读取多个 csv 文件的问题。执行并未停止 staticDataFrame = Spark.read.format("csv")\ .option("标题", &q...

回答 1 投票 0

hive 中的原始 json 字段类型

如何使用原始json字段在hive中定义表(不解析,作为纯文本)? 对于以下 s3 文件: {“first_field”:1,“json_field”:{“a”:{“b”:“c”},“d”:“e”},“sec_field”:4} {“第一个字段...

回答 1 投票 0

Hadoop bin目录不存在

节目: 火花 = SparkSession.builder.getOrCreate() Spark.sql("创建数据库icebergdb2") Spark.sql("使用icebergdb2") 架构 = StructType([ StructField("vendor_id",

回答 1 投票 0

通过JAVA使用Spark从HBase读取数据

我想使用JAVA通过Spark访问HBase。除了这个之外,我还没有找到任何这方面的例子。答案中写道, 你也可以用Java来写这个 我从如何r... 复制了这段代码

回答 2 投票 0

无法使用docker让hadoop HDFS数据持久化

我有一个使用此 docker-compos.yaml 文件创建的名称节点和数据节点 版本:“3” 服务: 名称节点: 图片:apache/hadoop:3 主机名:192.168.105.139

回答 1 投票 0

hadoop“ipc.Client:正在重试连接到服务器”错误

关于如何解决这个hadoop错误有很多想法 17/04/15 10:59:57 信息 ipc.Client:正在重试连接到服务器:localhost/127.0.0.1:54310。已尝试 0 次。 不过,我尝试过...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.