hadoop 相关问题

Hadoop是一个Apache开源项目，为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统（HDFS）和资源管理器（YARN）组成。各种其他开源项目，例如Apache Hive，使用Apache Hadoop作为持久层。

我一直在使用 Google Dataproc 探索 Spark，其中标准架构包括主节点和工作节点。在 Google Dataproc 上，主节点通常包含 hdfs Namenode 和 YARN

apache-spark hadoop yandex

回答 1 投票 0

有没有办法删除HDFS上超过10天的文件？在 Linux 中我会使用：查找/path/to/directory/ -type f -mtime +10 -name '*.txt' -execdir rm -- {} \; 有没有办法在 HDFS 上做到这一点？ (

hadoop hdfs

回答 8 投票 0

如何有条件地从列中删除前两个字符

我有一些电话记录的以下数据，我想从每条记录中删除前两个值，因为它们是国家/地区代码。我可以使用 Scala、Spark 或 Hiv 执行此操作的方式是什么...

scala apache-spark hadoop apache-spark-sql hive

回答 4 投票 0

如何获取 Hive Web 界面的 URL

抱歉，这可能是一个基本问题。我尝试用谷歌搜索但找不到确切的解决方案我正在尝试查找我的 Hive Web 界面的 URL。通过这个我可以检查其中存在的表格。 ...

hadoop hive hiveql

回答 3 投票 0

如何在hive中的分区内创建分区？

我在配置单元表中存储了一些数据，其字段为日期、平均温度、经度、纬度、城市和国家/地区。我想根据城市和国家/地区对数据进行分区，城市

hadoop hive bigdata

回答 1 投票 0

Hive：无效的列引用

在 Hive 中，我有四个表： temp_basic_info（ID、MSISDN、性别、年龄、日、月、年、关系状态） temp_education（ID，教育）喜欢和音乐（ID、名称、页面） temp_output（ID、MSIS...

sql hadoop hive

回答 1 投票 0

使用python从HDFS获取镶木地板文件

我用windows单集群构建自己的hdfs，从此链接获取参考然后我已经输入了我的镶木地板文件，但我无法从其他计算机读取该文件。这是我的 python 代码导入

python hadoop parquet

回答 1 投票 0

Hive 和 hive server2 未启动

我正在尝试使用 apache_hive_2.3.7 和 apache_hadoop_3.3.6 在本地计算机中设置配置单元。当我尝试运行配置单元时出现以下错误： [sgopi@localhost v2.3.7]$ 配置单元 /usr/bin/which: 没有 hbase 我...

hadoop hive java-opts javaoptions

回答 1 投票 0

配置hadoop.service.shutdown.timeout属性

我需要配置 hadoop.service.shutdown.timeout 的值，因为当我们的 MR 作业停止时关闭钩子会触发超时： 2023-08-25 08:44:39,566 [警告] [Thread-0] [org.apache.hadoop.u...

hadoop mapreduce hadoop-yarn hadoop2

回答 1 投票 0

错误 [HYT00] [Microsoft] [Hardy] 查询执行超时已过期。 Hive ODBC 连接

使用 Microsoft Hive ODBC 驱动程序 hive 2.1.12.1017 连接具有 hadoop 设置的 Linux 计算机上的 Hive。选择大数据查询会出现此错误：错误 [HYT00] [Microsoft] [Hardy] 查询

c# hadoop hive odbc

回答 2 投票 0

HBase：无法存储数据（org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException）

无法使用table.put(p)方法存储数据，抛出异常：线程“main”中的异常 org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException：失败 1 个操作：org.

java hadoop hbase

回答 1 投票 0

REGEXP_REPLACE 捕获组

我想知道是否有人可以帮助我了解如何使用 Hive 的 regexp_replace 函数来捕获正则表达式中的组并在替换字符串中使用这些组。我有一个示例问题...

regex hadoop hive regexp-replace

回答 3 投票 0

配置错误：namenode地址dfs.namenode.rpc-address未配置

当我尝试启动 DataNode 时收到此错误。据我所知，RPC 参数仅用于 HA 配置，我没有设置（我认为）。 2014-05-18 18:05:00,589

hadoop hdfs cloudera-cdh

回答 14 投票 0

在 Hive 中将字符串值转换为十进制时为 NULL

我正在使用 Hive 0.13，表值的 STRING 列中有 1.250,99 我想将这些值转换为十进制，所以我必须替换“。”通过“”和“，”通过“。”结果是 1250.99 ...

hadoop replace casting hive decimal

回答 1 投票 0

错误：hbase 中不允许使用系统表快照

我想为我的元表创建快照，就像其他用户表一样。但出现错误： hbase(main):003:0> 快照 'hbase:meta','hbase_meta_snapshot' 错误：系统表快照是...

hadoop hbase

回答 1 投票 0

SOLR 在集合中索引大量数据时读取超时（套接字连接超时）

我们正在尝试将 hdfs（parquet 文件）中存在的大约 50 亿条记录索引到 solr 上的集合。我们使用的是 solr 7.2.1。我们已经生成了一个由 7 个数据节点组成的 emr 集群（16 个 VCore、128 GB e...

apache-spark hadoop solrcloud

回答 1 投票 0

使用 Spark 读取 S3 文件时提供 AWS_PROFILE

我希望我的 Spark 应用程序 (Scala) 能够读取 S3 文件 Spark.read.parquet("s3://my-bucket-name/my-object-key") 在我的开发机器上，我可以使用 awscli 预配置的 p...

apache-spark hadoop amazon-s3 profile aws-credentials

回答 3 投票 0

Sqoop 导入失败：尝试导入 Oracle 表时无法转换 SQL 类型 2005

尝试从 Oracle 数据库导入表作为 parquet 文件时出现以下错误。错误工具.ImportTool：导入失败：无法转换 SQL 类型 2005 这个问题已经...

oracle hadoop sqoop

回答 2 投票 0

如何使用pyhive访问远程hive

使用此链接尝试连接到远程配置单元。下面是使用的代码。下面还给出了收到的错误消息如何通过Python访问Hive？代码从 pyhive 导入配置单元 conn = 蜂巢。

python hadoop pyhive

回答 5 投票 0

pySpark 无法保存 parquet 文件 UnsatisfiedLinkError

我无法将数据帧保存到本地存储。这个神秘的堆栈跟踪似乎与某些 java.lang.UnsatisfiedLinkError 有关。有人见过这种类型的错误吗？ # 定义元组列表

apache-spark hadoop pyspark

回答 1 投票 0

hadoop 相关问题

最新问题