Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。
这是我第一次开发HDFS集群。我发现我可以更改文件所属或权限。 我不明白的是,如果我在 namenode 上创建用户 carl 并更改 /test dire 的所有者...
Hadoop 错误代码 127 - 无法找出错误的实际原因是什么
正在做课堂作业。在我的本地系统中运行映射器和减速器代码一切顺利,并获得了所需的输出。我感觉Hadoop有问题。 这是
Spark RDD.pipe FileNotFoundError: [WinError 2] 系统找不到指定的文件
我的目标是通过 RDD.pipe 从 pyspark 调用外部(dotnet)进程。由于这失败了,我想测试通过管道传输到一个简单的命令: Spark = SparkSession.builder.master("local").appName(&
Windows 上的 Python Hadoop 流,脚本不是有效的 Win32 应用程序
我在使用 Hadoop Streaming.jar 在 Hadoop 上执行 MapReduce Python 文件时遇到问题。 我用: Windows 10 64 位 Python 3.6,我的IDE是spyder 3.2.6, Hadoop 2.3.0 jdk1.8.0_161 我可以得到答案
避免使用 hadoop (EMR) 在 S3 中创建 _$folder$ 键
我正在 AWS 数据管道中使用 EMR 活动。此 EMR 活动正在 EMR 集群中运行 Hive 脚本。它以 dynamo DB 作为输入并将数据存储在 S3 中。 这是 EMR 法案中使用的 EMR 步骤...
我正在创建一个hadoop单节点集群。我在谷歌云上使用RedHat。为了安全起见,我已经关闭了防火墙规则。我的Red Hat是基于x86/64架构的E2-medium。 Hadoop
我有以下字符串:BCRIS-QUEBEC.C67950210QC.5147650116.O5000977510.RD02.0026.00001.DistributionPair.O 在 Hadoop 中,我尝试拉出 RD02 并将其放在 Dist_Cu_Cable 列下。这个字符串是...
通过 Spark Streaming API 使用 Kafka Connect 中的控制台发布预览数据
请我尝试使用 Spark 结构化流 API 预览从 Kafka 主题消耗的数据。 它卡在这里几分钟,而不是启动我的 Spark CLI 请帮忙 我已经...
当底层作业成功完成时,Oozie 工作流程在 Hive 作业上给出错误
自学的一部分我正在探索Oozie,并且正在Hortonworks Sandbox VM上练习。问题是,当底层作业给出时,Oozie 工作流程会出错并被杀死......
Spark java.io.EOFException:过早的 EOF:没有可用的长度前缀
我正在尝试读取 parquet 文件并对其执行一些操作,并将结果作为 parquet 保存在 HDFS 上。我正在使用 Spark 进行此操作。这样做时我遇到了以下异常。 java.io.
我正在尝试使用具有此包结构的 JSON 文件: { “用户id”:“kim95”, “类型”:“书”, "title": "现代数据库系统:对象模型、互操作性及其他。", ”
java.io.IOException:常规上传失败:java.lang.NoSuchMethodError
我无法将 Pyspark 数据帧保存到 S3 存储桶。 我正在 docker dev 容器中运行代码 我的 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY 在环境中设置 环境设置 基本图像:...
我一直在使用 Google Dataproc 探索 Spark,其中标准架构包括主节点和工作节点。在 Google Dataproc 上,主节点通常包含 hdfs Namenode 和 YARN
有没有办法删除HDFS上超过10天的文件? 在 Linux 中我会使用: 查找/path/to/directory/ -type f -mtime +10 -name '*.txt' -execdir rm -- {} \; 有没有办法在 HDFS 上做到这一点? (
我有一些电话记录的以下数据,我想从每条记录中删除前两个值,因为它们是国家/地区代码。我可以使用 Scala、Spark 或 Hiv 执行此操作的方式是什么...
抱歉,这可能是一个基本问题。我尝试用谷歌搜索但找不到确切的解决方案 我正在尝试查找我的 Hive Web 界面的 URL。 通过这个我可以检查其中存在的表格。 ...
我在配置单元表中存储了一些数据,其字段为日期、平均温度、经度、纬度、城市和国家/地区。 我想根据城市和国家/地区对数据进行分区,城市
在 Hive 中,我有四个表: temp_basic_info(ID、MSISDN、性别、年龄、日、月、年、关系状态) temp_education(ID,教育) 喜欢和音乐(ID、名称、页面) temp_output(ID、MSIS...
我用windows单集群构建自己的hdfs,从此链接获取参考 然后我已经输入了我的镶木地板文件,但我无法从其他计算机读取该文件。 这是我的 python 代码 导入
我正在尝试使用 apache_hive_2.3.7 和 apache_hadoop_3.3.6 在本地计算机中设置配置单元。当我尝试运行配置单元时出现以下错误: [sgopi@localhost v2.3.7]$ 配置单元 /usr/bin/which: 没有 hbase 我...