hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

HDFS 中的文件所有者和用户权限

这是我第一次开发HDFS集群。我发现我可以更改文件所属或权限。 我不明白的是,如果我在 namenode 上创建用户 carl 并更改 /test dire 的所有者...

回答 1 投票 0

Hadoop 错误代码 127 - 无法找出错误的实际原因是什么

正在做课堂作业。在我的本地系统中运行映射器和减速器代码一切顺利,并获得了所需的输出。我感觉Hadoop有问题。 这是

回答 1 投票 0

Spark RDD.pipe FileNotFoundError: [WinError 2] 系统找不到指定的文件

我的目标是通过 RDD.pipe 从 pyspark 调用外部(dotnet)进程。由于这失败了,我想测试通过管道传输到一个简单的命令: Spark = SparkSession.builder.master("local").appName(&

回答 1 投票 0

Windows 上的 Python Hadoop 流,脚本不是有效的 Win32 应用程序

我在使用 Hadoop Streaming.jar 在 Hadoop 上执行 MapReduce Python 文件时遇到问题。 我用: Windows 10 64 位 Python 3.6,我的IDE是spyder 3.2.6, Hadoop 2.3.0 jdk1.8.0_161 我可以得到答案

回答 2 投票 0

避免使用 hadoop (EMR) 在 S3 中创建 _$folder$ 键

我正在 AWS 数据管道中使用 EMR 活动。此 EMR 活动正在 EMR 集群中运行 Hive 脚本。它以 dynamo DB 作为输入并将数据存储在 S3 中。 这是 EMR 法案中使用的 EMR 步骤...

回答 5 投票 0

Hadoop 连接超时

我正在创建一个hadoop单节点集群。我在谷歌云上使用RedHat。为了安全起见,我已经关闭了防火墙规则。我的Red Hat是基于x86/64架构的E2-medium。 Hadoop

回答 1 投票 0

在 Hadoop 中使用正则表达式从字符串中查找文本

我有以下字符串:BCRIS-QUEBEC.C67950210QC.5147650116.O5000977510.RD02.0026.00001.DistributionPair.O 在 Hadoop 中,我尝试拉出 RD02 并将其放在 Dist_Cu_Cable 列下。这个字符串是...

回答 1 投票 0

通过 Spark Streaming API 使用 Kafka Connect 中的控制台发布预览数据

请我尝试使用 Spark 结构化流 API 预览从 Kafka 主题消耗的数据。 它卡在这里几分钟,而不是启动我的 Spark CLI 请帮忙 我已经...

回答 1 投票 0

当底层作业成功完成时,Oozie 工作流程在 Hive 作业上给出错误

自学的一部分我正在探索Oozie,并且正在Hortonworks Sandbox VM上练习。问题是,当底层作业给出时,Oozie 工作流程会出错并被杀死......

回答 2 投票 0

Spark java.io.EOFException:过早的 EOF:没有可用的长度前缀

我正在尝试读取 parquet 文件并对其执行一些操作,并将结果作为 parquet 保存在 HDFS 上。我正在使用 Spark 进行此操作。这样做时我遇到了以下异常。 java.io.

回答 1 投票 0

在Cloudera中使用serde加载JSON文件

我正在尝试使用具有此包结构的 JSON 文件: { “用户id”:“kim95”, “类型”:“书”, "title": "现代数据库系统:对象模型、互操作性及其他。", ”

回答 2 投票 0

java.io.IOException:常规上传失败:java.lang.NoSuchMethodError

我无法将 Pyspark 数据帧保存到 S3 存储桶。 我正在 docker dev 容器中运行代码 我的 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY 在环境中设置 环境设置 基本图像:...

回答 1 投票 0

Yandex Dataproc 架构:“数据”节点的目的?

我一直在使用 Google Dataproc 探索 Spark,其中标准架构包括主节点和工作节点。在 Google Dataproc 上,主节点通常包含 hdfs Namenode 和 YARN

回答 1 投票 0

删除HDFS上超过10天的文件

有没有办法删除HDFS上超过10天的文件? 在 Linux 中我会使用: 查找/path/to/directory/ -type f -mtime +10 -name '*.txt' -execdir rm -- {} \; 有没有办法在 HDFS 上做到这一点? (

回答 8 投票 0

如何有条件地从列中删除前两个字符

我有一些电话记录的以下数据,我想从每条记录中删除前两个值,因为它们是国家/地区代码。我可以使用 Scala、Spark 或 Hiv 执行此操作的方式是什么...

回答 4 投票 0

如何获取 Hive Web 界面的 URL

抱歉,这可能是一个基本问题。我尝试用谷歌搜索但找不到确切的解决方案 我正在尝试查找我的 Hive Web 界面的 URL。 通过这个我可以检查其中存在的表格。 ...

回答 3 投票 0

如何在hive中的分区内创建分区?

我在配置单元表中存储了一些数据,其字段为日期、平均温度、经度、纬度、城市和国家/地区。 我想根据城市和国家/地区对数据进行分区,城市

回答 1 投票 0

Hive:无效的列引用

在 Hive 中,我有四个表: temp_basic_info(ID、MSISDN、性别、年龄、日、月、年、关系状态) temp_education(ID,教育) 喜欢和音乐(ID、名称、页面) temp_output(ID、MSIS...

回答 1 投票 0

使用python从HDFS获取镶木地板文件

我用windows单集群构建自己的hdfs,从此链接获取参考 然后我已经输入了我的镶木地板文件,但我无法从其他计算机读取该文件。 这是我的 python 代码 导入

回答 1 投票 0

Hive 和 hive server2 未启动

我正在尝试使用 apache_hive_2.3.7 和 apache_hadoop_3.3.6 在本地计算机中设置配置单元。当我尝试运行配置单元时出现以下错误: [sgopi@localhost v2.3.7]$ 配置单元 /usr/bin/which: 没有 hbase 我...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.