hdfs 相关问题

Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。

向HDFS火花写入缓慢

我在HDFS(非分区)上有ORC数据,约80亿行,大小为250GB。 Iam读取DF中的数据,使用partitionBy例如,在不进行y转换的情况下写入DF,而无需进行y转换:df.write.mode(“ overwrite”)....

回答 1 投票 0


写入hdfs路径时出现错误java.io.IOException:重命名失败

我正在使用spark-sql-2.4.1v,它正在使用hadoop-2.6.5.jar版本。我需要先将数据保存在hdfs上,然后再移至cassandra。因此,我试图将数据保存在hdfs上,如下所示:String ...

回答 2 投票 0

为什么AWS EMR中缺少hive_staging文件

问题-我正在AWS EMR中运行1个查询。它因引发异常而失败-java.io.FileNotFoundException:文件s3:// xxx / yyy / internal_test_automation / 2016/09/17/17156 / data / feed / ...

回答 1 投票 8


AWS中具有HDFS或S3的数据湖之间有什么区别?

我需要在AWS上构建一个数据湖,但是我不知道S3与HDFS有何不同。我在互联网上找到了一些答案,但我仍然不了解真正的区别。我还需要知道...

回答 1 投票 0

找不到Hadoop输入路径

我是R的新手。我正在尝试在R Studio中运行地图缩小程序。我已经使用此命令查看文件是否存在Hadoop fs -ls,我可以看到该文件存在。但是当我尝试...

回答 1 投票 1

将数据从AWS存储桶复制到Ceph存储桶

我有一个ceph对象存储桶和一个AWS存储桶。我想将数据从AWS存储桶复制到ceph存储桶,而不将数据复制到任何中间系统本地系统。有没有办法做到这一点,因为...

回答 1 投票 0

Hadoop中超级用户与超级组之间的区别

[什么是Hadoop / HDFS中的超级组和超级用户?

回答 1 投票 0

HDFS dfs -ls路径/文件名

我已将几个文件复制到该路径。但是,当我尝试运行命令hdfs dfs -ls path / filename时,它未返回任何文件。 hdfs dfs -ls直到目录起作用,但是当我使用文件名时...

回答 1 投票 0

Spark无法在分区和追加模式下写入新的配置单元表

以分区和ORC格式在配置单元中创建了一个新表。通过使用append,orc和分区模式使用spark写入此表。它因以下原因而失败:org.apache.spark.sql ....

回答 1 投票 0

Spark中预测给定hdfs数据集中记录数的充分方法

我有要加载的大数据集。我想根据记录数预先计算分区数。是否有足够的方法来做到这一点?这个想法根本不好吗?

回答 1 投票 -1

HDFS File Watcher Service

我正在使用hdfs文件监视程序服务在我的flink流作业中更改配置文件时立即加载它。监视程序服务的来源:HDFS文件监视程序我在这里面临的问题是...

回答 1 投票 0

如何在Java应用程序的蜂巢壳上添加jars

我正在尝试在蜂巢壳上添加jar。我知道服务器上的全局选项,但我的要求是在配置单元外壳上的每个会话中添加它们。我已经将此类用于hdfs dfs ...

回答 1 投票 1

如何在hadoop hdfs中解压缩文件

我在本地目录中有很多JSON文件(1 MM)。我需要将这些JSON文件直接移至HDFS。创建了一个包含所有JSON文件的tar。 tar -cvf filename.tar ...

回答 1 投票 0

java.lang.NoClassDefFoundError:org / apache / spark / TaskOutputFileAlreadyExistException

我已经读取了HDFS中的数据。我对其进行了分析,但在编写时遇到此错误。错误的继续线程“ main”中的异常异常java.lang.NoClassDefFoundError:org / apache / spark / ...

回答 1 投票 0

写入列表 到HDFS

我有一个CSV记录列表。导入org.apache.commons.csv.CSVRecord List records = getRecords();我将记录格式化为stringbuilder。私有StringBuilder formatRecords(final ...

回答 1 投票 1

无法创建文档/将文档读取到与EKS集群中的AWS EBS一起部署的HDFS中

我有带有EBS存储类/卷的EKS集群。我能够使用statefulset成功部署hdfs namenode和datanode映像(bde2020 / hadoop-xxx)。当我尝试将文件从...

回答 1 投票 0

如何将HDFS(Hadoop分布式FS)部署到K8s(Kubernetes)集群?

因此,我已经启动并运行了一个K8s集群,我想在其之上运行Spark作业。 Kubernetes是v1.15.3和Spark v2.4.5。现在,为了进行数据存储,我正在考虑使用HDFS,但我不想...

回答 1 投票 0

正在从CSV文件加载新的换行符

[我们有以下类型的文件:1- Sam,Joshua,“ 52 DD dr,Hiawatha湖”,新泽西州,07034 2- Ruchi,kumari,SNN Raj Serenity,孟加拉国,560068第1行分为...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.