Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。
我一直在使用 Google Dataproc 探索 Spark,其中标准架构包括主节点和工作节点。在 Google Dataproc 上,主节点通常包含 hdfs Namenode 和 YARN
有没有办法删除HDFS上超过10天的文件? 在 Linux 中我会使用: 查找/path/to/directory/ -type f -mtime +10 -name '*.txt' -execdir rm -- {} \; 有没有办法在 HDFS 上做到这一点? (
我有一些电话记录的以下数据,我想从每条记录中删除前两个值,因为它们是国家/地区代码。我可以使用 Scala、Spark 或 Hiv 执行此操作的方式是什么...
抱歉,这可能是一个基本问题。我尝试用谷歌搜索但找不到确切的解决方案 我正在尝试查找我的 Hive Web 界面的 URL。 通过这个我可以检查其中存在的表格。 ...
我在配置单元表中存储了一些数据,其字段为日期、平均温度、经度、纬度、城市和国家/地区。 我想根据城市和国家/地区对数据进行分区,城市
在 Hive 中,我有四个表: temp_basic_info(ID、MSISDN、性别、年龄、日、月、年、关系状态) temp_education(ID,教育) 喜欢和音乐(ID、名称、页面) temp_output(ID、MSIS...
我用windows单集群构建自己的hdfs,从此链接获取参考 然后我已经输入了我的镶木地板文件,但我无法从其他计算机读取该文件。 这是我的 python 代码 导入
我正在尝试使用 apache_hive_2.3.7 和 apache_hadoop_3.3.6 在本地计算机中设置配置单元。当我尝试运行配置单元时出现以下错误: [sgopi@localhost v2.3.7]$ 配置单元 /usr/bin/which: 没有 hbase 我...
配置hadoop.service.shutdown.timeout属性
我需要配置 hadoop.service.shutdown.timeout 的值,因为当我们的 MR 作业停止时关闭钩子会触发超时: 2023-08-25 08:44:39,566 [警告] [Thread-0] [org.apache.hadoop.u...
错误 [HYT00] [Microsoft] [Hardy] 查询执行超时已过期。 Hive ODBC 连接
使用 Microsoft Hive ODBC 驱动程序 hive 2.1.12.1017 连接具有 hadoop 设置的 Linux 计算机上的 Hive。 选择大数据查询会出现此错误: 错误 [HYT00] [Microsoft] [Hardy] 查询
HBase:无法存储数据(org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException)
无法使用table.put(p)方法存储数据,抛出异常: 线程“main”中的异常 org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException:失败 1 个操作:org.
我想知道是否有人可以帮助我了解如何使用 Hive 的 regexp_replace 函数来捕获正则表达式中的组并在替换字符串中使用这些组。 我有一个示例问题...
配置错误:namenode地址dfs.namenode.rpc-address未配置
当我尝试启动 DataNode 时收到此错误。据我所知,RPC 参数仅用于 HA 配置,我没有设置(我认为)。 2014-05-18 18:05:00,589
我正在使用 Hive 0.13,表值的 STRING 列中有 1.250,99 我想将这些值转换为十进制,所以我必须替换“。”通过“”和“,”通过“。”结果是 1250.99 ...
我想为我的元表创建快照,就像其他用户表一样。 但出现错误: hbase(main):003:0> 快照 'hbase:meta','hbase_meta_snapshot' 错误:系统表快照是...
我们正在尝试将 hdfs(parquet 文件)中存在的大约 50 亿条记录索引到 solr 上的集合。我们使用的是 solr 7.2.1。我们已经生成了一个由 7 个数据节点组成的 emr 集群(16 个 VCore、128 GB e...
使用 Spark 读取 S3 文件时提供 AWS_PROFILE
我希望我的 Spark 应用程序 (Scala) 能够读取 S3 文件 Spark.read.parquet("s3://my-bucket-name/my-object-key") 在我的开发机器上,我可以使用 awscli 预配置的 p...
Sqoop 导入失败:尝试导入 Oracle 表时无法转换 SQL 类型 2005
尝试从 Oracle 数据库导入表作为 parquet 文件时出现以下错误。 错误工具.ImportTool:导入失败:无法转换 SQL 类型 2005 这个问题已经...
使用此链接尝试连接到远程配置单元。下面是使用的代码。下面还给出了收到的错误消息 如何通过Python访问Hive? 代码 从 pyhive 导入配置单元 conn = 蜂巢。
pySpark 无法保存 parquet 文件 UnsatisfiedLinkError
我无法将数据帧保存到本地存储。 这个神秘的堆栈跟踪似乎与某些 java.lang.UnsatisfiedLinkError 有关。有人见过这种类型的错误吗? # 定义元组列表