hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

如何删除 HUDI 表(历史)中所有提交的键?

对于 HUDI 表,目标是应用 GDPR 并删除表的键。 我只能删除表的最新提交的数据。 如何确保删除

回答 1 投票 0

分离 Spark 和 hadoop 配置属性

我有一个用例,我想将 Spark 配置属性和 hadoop 配置属性与 Spark-submit 命令分开。 火花提交命令示例: /usr/lib/spark/bin/spark-submit --m...

回答 1 投票 0

如何将java库添加到Apache Hive容器?

尝试将 hudi 表写入 S3 时,我收到 org.apache.hadoop.fs.s3a.S3AFileSystem not found 消息。我正在使用官方 Apache Hive HMS 映像。 配置单元元存储: 容器名称:hive-

回答 1 投票 0

在Hive中使用named_struct函数来处理表的所有列

在Hive中,您可以使用named_struct函数来创建键值对列表;键通常是列名,值是相应列中的值。例如...

回答 1 投票 0

Hadoop备份和恢复工具及指南

我是hadoop新手,需要了解有关备份和恢复的详细信息。我修改了oracle备份和恢复,对hadoop有帮助吗?我应该从哪里开始

回答 5 投票 0

在 Cloudera Quickstart VM 中导入所有表时在 Sqoop 中出现错误

当我尝试通过 Sqoop 导入所有表时,出现以下错误: sqoop import-all-tables -m 12 --connect "jdbc:mysql://quickstart.cloudera:3306/retail_db" --username=retail_dba --

回答 2 投票 0

hadoop YARN 上分配了多少内存和 vcore?

我想问,在hadoop的yarn中,yarn-site.xml和mapred-site.xml上都有诸如最小和最大内存或vcore之类的属性。我有点困惑,实际上到底有多少内存和 vcore

回答 1 投票 0

hdfs文件下载请求url

请求下载时,请求的url是主机名,所以出现了400 bad request。 我的服务器是 5 个,hadoop 是 1 个名称节点、1 个辅助节点和数据节点、3 个数据节点 总共 1namenode 1secondarynamenode 4data...

回答 1 投票 0

使用简单模型对 1TB 数据进行报告/分析的数据库

大数据=1TB,每年增长10%。 模型很简单..一张表有25列。 不与其他表连接。 我希望对 25 列的子集进行简单的查询过滤。 我猜...

回答 3 投票 0

使用JAVA SDK删除Hive表的所有分区

我需要删除配置单元表的所有当前分区。 我尝试搜索,但所有这些都在 Hive 查询中。 我的分区模式是(年=“2018”/月=“01”) 因此尝试表达年份&...

回答 1 投票 0

hadoop中命名空间存储在哪里?

我想找到保存的命名空间的位置,即当我在cloudera发行版中发出命令hdfs dfsadmin -saveNamespace时,在hadoop中保存的元数据。 有人可以帮我在哪里吗...

回答 2 投票 0

hadoop-streaming 如何删除尾随制表符符号

如何去掉制表符 hadoop 罐子\ /usr/hdp/3.1.0.0-78/hadoop-mapreduce/hadoop-streaming.jar \ -Dmapred.reduce.tasks=1 \ -Dmapred.job.queue.name=默认\ -输入

回答 1 投票 0

部署spark-submit容器时出错

我正在尝试部署我为我的主模块中的模块完成的项目。在这个项目中,我必须修改一些文件,以便能够将 Spark 与一些 Spark Workers、Cassandra、Flask 和更多 Packa 一起使用...

回答 1 投票 0

如何从 Athena 迁移到“本地”Presto +?

我们目前在 S3 中使用 Athena 和 JSON 文件。我们使用所有 Presto SQL 功能 - 我们的 JSON 文件和相应的 Athena 表具有数组等。对于本地堆栈,您会推荐什么...

回答 1 投票 0

Hive 如何禁用语义检查“并集两侧的架构应该匹配”

两个相同的 Hive 2.1 我有两个hadoop集群: HDP 2.x 与 Hive 2.1.0 r6177e19d5af719688732bbffc2a7953295e62b0a(选择版本();) CDH 6.x 与 Hive 2.1.1-cdh6.3.2

回答 1 投票 0

外部表错误,列值包含逗号

我正在使用 Azure synapse 创建外部表。 ADLS 包含 csv 文件,列值带有逗号。例如,123,456。 我尝试使用列数据类型 V 创建外部表...

回答 1 投票 0

如何指定 AWS 访问密钥 ID 和秘密访问密钥作为 amazon s3n URL 的一部分

我将输入和输出文件夹作为参数传递给来自网页的mapreduce字数统计程序。 出现以下错误: HTTP Status 500 - 请求处理失败;嵌套异常是 java.l...

回答 8 投票 0

如何查找 Parquet 文件生成时使用的 COMPRESSION_CODEC?

通常在 Impala 中,我们在将数据插入底层文件为 Parquet 格式的表之前使用 COMPRESSION_CODEC。 用于设置 COMPRESSION_CODEC 的命令: 设置压缩_c...

回答 3 投票 0

在 Hive 外部表上执行 INSERT INTO 是否也会将行插入底层 HDFS 数据集?

我有一个 Hive 外部表“customer_main”映射到基于 .orc 的 HDFS 数据集,该数据集的路径为“/dev/customer/customer_main/”。如果我运行 INSERT INTO customer_main VALUES() 来插入一行...

回答 1 投票 0

如何在Hadoop Hive中获取Substring?

我的问题是如何通过字符串中的指示获取 Hive 中的子字符串。我的列值格式如下: /国家/州/城市/郊区/街道 在这里我只需要获取国家/地区。 我有喜欢...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.