hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

Yandex Dataproc 架构:“数据”节点的目的?

我一直在使用 Google Dataproc 探索 Spark,其中标准架构包括主节点和工作节点。在 Google Dataproc 上,主节点通常包含 hdfs Namenode 和 YARN

回答 1 投票 0

删除HDFS上超过10天的文件

有没有办法删除HDFS上超过10天的文件? 在 Linux 中我会使用: 查找/path/to/directory/ -type f -mtime +10 -name '*.txt' -execdir rm -- {} \; 有没有办法在 HDFS 上做到这一点? (

回答 8 投票 0

如何有条件地从列中删除前两个字符

我有一些电话记录的以下数据,我想从每条记录中删除前两个值,因为它们是国家/地区代码。我可以使用 Scala、Spark 或 Hiv 执行此操作的方式是什么...

回答 4 投票 0

如何获取 Hive Web 界面的 URL

抱歉,这可能是一个基本问题。我尝试用谷歌搜索但找不到确切的解决方案 我正在尝试查找我的 Hive Web 界面的 URL。 通过这个我可以检查其中存在的表格。 ...

回答 3 投票 0

如何在hive中的分区内创建分区?

我在配置单元表中存储了一些数据,其字段为日期、平均温度、经度、纬度、城市和国家/地区。 我想根据城市和国家/地区对数据进行分区,城市

回答 1 投票 0

Hive:无效的列引用

在 Hive 中,我有四个表: temp_basic_info(ID、MSISDN、性别、年龄、日、月、年、关系状态) temp_education(ID,教育) 喜欢和音乐(ID、名称、页面) temp_output(ID、MSIS...

回答 1 投票 0

使用python从HDFS获取镶木地板文件

我用windows单集群构建自己的hdfs,从此链接获取参考 然后我已经输入了我的镶木地板文件,但我无法从其他计算机读取该文件。 这是我的 python 代码 导入

回答 1 投票 0

Hive 和 hive server2 未启动

我正在尝试使用 apache_hive_2.3.7 和 apache_hadoop_3.3.6 在本地计算机中设置配置单元。当我尝试运行配置单元时出现以下错误: [sgopi@localhost v2.3.7]$ 配置单元 /usr/bin/which: 没有 hbase 我...

回答 1 投票 0

配置hadoop.service.shutdown.timeout属性

我需要配置 hadoop.service.shutdown.timeout 的值,因为当我们的 MR 作业停止时关闭钩子会触发超时: 2023-08-25 08:44:39,566 [警告] [Thread-0] [org.apache.hadoop.u...

回答 1 投票 0

错误 [HYT00] [Microsoft] [Hardy] 查询执行超时已过期。 Hive ODBC 连接

使用 Microsoft Hive ODBC 驱动程序 hive 2.1.12.1017 连接具有 hadoop 设置的 Linux 计算机上的 Hive。 选择大数据查询会出现此错误: 错误 [HYT00] [Microsoft] [Hardy] 查询

回答 2 投票 0

HBase:无法存储数据(org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException)

无法使用table.put(p)方法存储数据,抛出异常: 线程“main”中的异常 org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException:失败 1 个操作:org.

回答 1 投票 0

REGEXP_REPLACE 捕获组

我想知道是否有人可以帮助我了解如何使用 Hive 的 regexp_replace 函数来捕获正则表达式中的组并在替换字符串中使用这些组。 我有一个示例问题...

回答 3 投票 0

配置错误:namenode地址dfs.namenode.rpc-address未配置

当我尝试启动 DataNode 时收到此错误。据我所知,RPC 参数仅用于 HA 配置,我没有设置(我认为)。 2014-05-18 18:05:00,589

回答 14 投票 0

在 Hive 中将字符串值转换为十进制时为 NULL

我正在使用 Hive 0.13,表值的 STRING 列中有 1.250,99 我想将这些值转换为十进制,所以我必须替换“。”通过“”和“,”通过“。”结果是 1250.99 ...

回答 1 投票 0

错误:hbase 中不允许使用系统表快照

我想为我的元表创建快照,就像其他用户表一样。 但出现错误: hbase(main):003:0> 快照 'hbase:meta','hbase_meta_snapshot' 错误:系统表快照是...

回答 1 投票 0

SOLR 在集合中索引大量数据时读取超时(套接字连接超时)

我们正在尝试将 hdfs(parquet 文件)中存在的大约 50 亿条记录索引到 solr 上的集合。我们使用的是 solr 7.2.1。我们已经生成了一个由 7 个数据节点组成的 emr 集群(16 个 VCore、128 GB e...

回答 1 投票 0

使用 Spark 读取 S3 文件时提供 AWS_PROFILE

我希望我的 Spark 应用程序 (Scala) 能够读取 S3 文件 Spark.read.parquet("s3://my-bucket-name/my-object-key") 在我的开发机器上,我可以使用 awscli 预配置的 p...

回答 3 投票 0

Sqoop 导入失败:尝试导入 Oracle 表时无法转换 SQL 类型 2005

尝试从 Oracle 数据库导入表作为 parquet 文件时出现以下错误。 错误工具.ImportTool:导入失败:无法转换 SQL 类型 2005 这个问题已经...

回答 2 投票 0

如何使用pyhive访问远程hive

使用此链接尝试连接到远程配置单元。下面是使用的代码。下面还给出了收到的错误消息 如何通过Python访问Hive? 代码 从 pyhive 导入配置单元 conn = 蜂巢。

回答 5 投票 0

pySpark 无法保存 parquet 文件 UnsatisfiedLinkError

我无法将数据帧保存到本地存储。 这个神秘的堆栈跟踪似乎与某些 java.lang.UnsatisfiedLinkError 有关。有人见过这种类型的错误吗? # 定义元组列表

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.