hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

在 hive 上读取 zst 文件时出现未知的帧描述符?

我有一个文件a.csv.zst并且我创建了文本文件表。 当我在 hive 上选择时,我看到前 100 行没有错误,但是当我选择 count(*) 时,它给出错误未知帧描述符 我可以装饰...

回答 1 投票 0

失败:访问 Hive 视图时执行错误,从 org.apache.hadoop.hive.ql.exec.mr.MapRedTask 异常返回代码 2

我正在尝试访问 Hive 中的视图,出现以下异常: 获取日志线程被中断,因为查询已完成! 错误:处理语句时出错:FAILED:执行错误,返回

回答 1 投票 0

无法创建代理提供程序类 org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

我正在尝试读取以检查 HDFS 上是否存在文件。我正在使用 Eclipse IDE,并且在类路径中拥有所有必需的 hadoop jar 和 hadoop 配置。当我执行程序时,我看到下面的内容

回答 1 投票 0

元数据错误:org.apache.thrift.transport.TTransportException

这个错误是什么意思? “元数据错误:org.apache.thrift.transport.TTransportException?” 在什么情况下会出现此错误? 我在创建表时遇到此错误,为什么...

回答 2 投票 0

有效合并大镶木地板文件

我正在使用镶木地板工具来合并镶木地板文件。但 parquet-tools 似乎需要与合并文件一样大的内存。我们在 parquet-tools 中是否还有其他方法或可配置选项...

回答 2 投票 0

如何在Azure数据工厂中动态复制多个文件

管道的主要座右铭是将数据从 Source 复制到 Sink。但是 Source 及其各自的 Sink 的数量不会恒定,这意味着它可能每天都会增加或减少。如何...

回答 1 投票 0

YARN Timeline Server .out 文件不旋转

Yarn Timeline Server 在 /var/log/hadoop-yarn 位置生成日志。我们看到两种类型的日志文件: hadoop-yarn-timelineserver-*.log* hadoop-yarn-timelineserver-*.out...

回答 2 投票 0

如何让 HBase 等到 HDFS 准备好后再启动?

我正在为 Hadoop 构建自动安装脚本,但遇到了 HBase 无法启动的问题,因为 HDFS 尚未完全启动并准备就绪。我如何以编程方式(从 Bash、ide...

回答 2 投票 0

使用mapr实现请求

我有以下Java代码片段: 导入 org.ojai.Document; 公共类 JsonRepository { 公共对象 jsonStore; // 这个对象应该是什么类型 公共文档 createDocumen...

回答 1 投票 0

将 Spark Dataframe 作为 Apache Hudi 表写入具有对象锁的 S3 存储桶

我有一些数据集(CSV 和 Parquet 文件),我想将它们转换并构建为启用了对象锁定的 S3 存储桶中的 Hudi 表。 从 pyspark 的官方文档我了解到它

回答 1 投票 0

如何恢复hdfs删除的文件

我被问到以下问题。 面试官:如何恢复hdfs中删除的文件。 我:我们可以从垃圾目录复制/移回原始目录。 采访者:除了...还有其他办法吗

回答 2 投票 0

Hadoop Streaming - 无法找到文件错误

我正在尝试运行 hadoop-streaming python 作业。 bin/hadoop jar contrib/streaming/hadoop-0.20.1-streaming.jar -Dstream.non.zero.exit.is.failure=true -输入/ixml -输出/oxml -映射器脚本...

回答 9 投票 0

从主机到 HDFS 的调用因连接异常 java.net.ConnectException 失败:连接被拒绝

我已经开始在 Ubuntu_16.04_LTS 机器上运行多节点集群。我有两台 Ubuntu_18.04_LTS 机器在虚拟机上运行。 我决定将本地机器作为主机运行,并在

回答 2 投票 0

winutls 适用于 Windows 11 64 位

我在我的操作系统 Windows 11 64 位的笔记本电脑上安装了 Spark 集群,并且运行顺利。 在本地计算机上保存数据帧时,我收到以下错误 - df.write.mode('

回答 1 投票 0

Apache Hive:如何在表中的特定位置添加列

我想将新列添加到配置单元表中的特定位置。当我添加新列时,它会转到最后一个位置。

回答 2 投票 0

我如何找到猪中特定国家(例如美国)的每个专业计数和年龄计数

这就是例子。由此我想找到每个专业计数和每个年龄组计数。 filter_data = 按 loc=='us' 过滤客户; grunt> grp_data1 = 按年龄分组filter_data...

回答 1 投票 0

尝试通过spark Rest api提交pyspark作业但连接被拒绝

我正在使用 ubuntu 系统和版本 3.5.0 的 pyspark 我正在尝试使用curl -X Post 通过spark Rest api 提交作业。 我的文件位于“/home/arbind/spark/arbind/practice/masterslave1.jar”位置...

回答 1 投票 0

如何从docker容器访问本地系统文件?

我正在码头工人终端上工作。我想从 docker 终端访问本地文件。有办法做到吗?提前致谢。 编辑:我有大量文件要访问 我尝试加载...

回答 1 投票 0

在 hadoop 集群上运行 Spark 管道时出现 java.lang.NoSuchFieldError: HIVE_LOCAL_TIME_ZONE 错误

我的java-spark代码是用Spark3.2.4和JDK1.8编写的,而运行时是2.11.12和JDK8。在触发火花提交之前,我将所有必要的罐子(uber-jar)捆绑在一起。我的行家有一个九月...

回答 1 投票 0

如何将 PySpark 数据帧保存到 parquet 文件

我刚刚安装了 PySpark,因为我不需要 Hadoop,PySpark 文档中不推荐它。所有人都安装 Hadoop 只是为了在本地计算机中保存镶木地板吗? 我的代码: 来自日期...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.