hadoop 相关问题

Hadoop是一个Apache开源项目，为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统（HDFS）和资源管理器（YARN）组成。各种其他开源项目，例如Apache Hive，使用Apache Hadoop作为持久层。

Spark 建议列出文档中提供的 Spark 和 Hadoop 依赖项，这是严格要求的吗？

在 Spark 文档中，它指出：如果您的代码依赖于其他项目，则需要将它们打包与您的应用程序一起，以便将代码分发到 Spark 簇。为了做到这一点...

apache-spark hadoop hbase amazon-emr

回答 1 投票 0

问题无法找到 s3ablock-0001-

当我尝试在 S3 上写入数据时，我在 Amazon EMR 上运行作业时遇到问题。这是堆栈跟踪： org.apache.hadoop.util.DiskChecker$DiskErrorException：找不到任何有效的本地可怕...

apache-spark hadoop pyspark amazon-emr

回答 4 投票 0

nifi FlowFile 尚未关闭（Groovy 脚本）警告

nifi 术语和流文件处理的新内容。找到了一种处理传入 xml 并使用 XmlSlurper 解析它的便捷方法，但收到以下针对传入流文件的 GroovyScript 的警告...

hadoop groovy cloudera apache-nifi hortonworks-data-platform

回答 2 投票 0

在 avro 架构中使用“默认”

根据 Avro 文档中“默认”属性的定义：“此字段的默认值，在读取缺少此字段的实例时使用（可选）。” 这意味着如果相应的字段...

java hadoop serialization apache-kafka avro

回答 3 投票 0

如何将 sas7bdat 文件转换为 csv？

我想将 .sas7bdat 文件转换为 .csv/txt 格式，以便我可以将其上传到配置单元表中。我从外部服务器接收 .sas7bdat 文件，但我的计算机上没有 SAS。

csv hadoop hive sas hdfs

回答 6 投票 0

Flink 检查点因延迟相关错误而停顿和超时

最近，我升级了现有的 Flink 作业（之前运行 Flink 1.15）以针对官方 Flink Kubernetes Operator（针对 Flink 1.18）运行，并开始看到一些奇怪的行为...

hadoop apache-flink flink-streaming flink-checkpoint flink-kubernetes-operator

回答 1 投票 0

为什么可以将顶点添加到 JanusGraph，但是向该顶点添加属性会抛出 SerializationException？

重现步骤：使用默认配置启动JanusGraph服务器。（在\gremlin.bat中打开janusgraph-full-1.0.0）使用Gremlin控制台连接服务器。（打开janusgraph-full-1.0.0 in\

hadoop gremlin janusgraph gremlin-server

回答 1 投票 0

未找到 S3AFileSystem：使用笔记本访问 EC2 上的 s3 文件

围绕这个问题有多种答案，例如这样和这样。我经历了两者，但无法解决问题。这是总结：我有一个使用此 AMI 克隆的 EC2：“Deep

apache-spark amazon-s3 hadoop pyspark

回答 1 投票 0

oozie rest api 用于特定作业名称（又名应用程序名称）

我正在尝试使用 Rest API 获取特定作业的工作流程信息。 http://xxxxx:11000/oozie/v1/jobs?appName=oozie_job_1 这将返回所有作业以及 oozie_job_1。我想...

hadoop oozie oozie-workflow

回答 2 投票 0

namenode 在 hadoop 中未格式化

在普通帐户中。我创建了一些目录。 /usr/local/hadoop-2.7.3/data/dfs/namenode /usr/local/hadoop-2.7.3/data/dfs/namesecondary /usr/local/hadoop-2.7.3/data/dfs/datanode /usr/local/hadoop...

hadoop installation

回答 4 投票 0

FileNotFound hadoop 而在那里

我正在尝试制作一个Map-reduce程序，它将执行2个周期。第一个映射缩减周期将创建一个包含 2 个键|值对的文件。然后我需要在

java hadoop hdfs

回答 1 投票 0

通过 Docker 集成 Flink 和 HDFS

我有 flink jobmanager 和 taskmanager 节点，还有 hdfs namenode 和 datanode 作为 Docker 容器。职位经理：图片：flink：1.17.2-scala_2.12-java8 端口： - “8081：……

docker hadoop apache-flink

回答 1 投票 0

ESRI Hive ST_Contains 无法正常工作

尝试使用我能找到的 JAR（不确定它们是最佳选择，我需要使用 ESRI 并在 Hive 中执行此操作）：添加 JAR /home/user/lib/esri-geometry-api-1.2.1.jar；添加 JAR /home/user/...

hadoop sdk hive spatial esri

回答 2 投票 0

Hive 不显示表格

我是 Hadoop 和 Hive 世界的新手。我有一个奇怪的问题。当我在 hive 提示符上工作时。我创建了一些表，并且配置单元正在显示这些表。当我退出 Hive 会话后...

hadoop hive

回答 3 投票 0

错误 org.apache.pig.tools.grunt.Grunt - 错误 1200：<line 16, column 46> 不匹配的输入“，”期望 LEFT_PAREN

grunt>joined_data=JOINfiltered_featuresBY（商店，日期），销售额BY（商店，日期）； 2024-04-02 13:19:05,110 [主要] 错误 org.apache.pig.tools.grunt.Grunt - 错误 1200： grunt> joined_data = JOIN filtered_features BY (store, date), sales BY (store, date); 2024-04-02 13:19:05,110 [主要] 错误 org.apache.pig.tools.grunt.Grunt - 错误 1200: 不匹配的输入 ',' 期待 LEFT_PAREN 日志文件详细信息：/home/vboxuser/Documents/DDPC/EX9/q2/2/pig_1712044037517.log 猪堆栈跟踪错误 1200：输入“，”不匹配，需要 LEFT_PAREN 解析失败：输入“,”不匹配，需要 LEFT_PAREN at org.apache.pig.parser.QueryParserDriver.parse(QueryParserDriver.java:244) at org.apache.pig.parser.QueryParserDriver.parse(QueryParserDriver.java:182) at org.apache.pig.PigServer$Graph.validateQuery(PigServer.java:1792) at org.apache.pig.PigServer$Graph.registerQuery(PigServer.java:1765) at org.apache.pig.PigServer.registerQuery(PigServer.java:708) at org.apache.pig.tools.grunt.GruntParser.processPig(GruntParser.java:1110) at org.apache.pig.tools.pigscript.parser.PigScriptParser.parse(PigScriptParser.java:512) at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:230) at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:205) at org.apache.pig.tools.grunt.Grunt.run(Grunt.java:66) at org.apache.pig.Main.run(Main.java:564) at org.apache.pig.Main.main(Main.java:175) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.base/java.lang.reflect.Method.invoke(Method.java:566) at org.apache.hadoop.util.RunJar.run(RunJar.java:244) at org.apache.hadoop.util.RunJar.main(RunJar.java:158) ====================================================== ================================= 有括号但还是错误Left Paran 如果我提到列号，它就会起作用 grunt> join_data = JOIN Filtered_features BY ($0, $2), sales BY ($0, $1);

hadoop mapreduce apache-pig

回答 1 投票 0

任何人都可以帮我解决这个问题，同时尝试在ubuntu上安装hadoop吗？

当我尝试在 ubuntu 上安装 hadoop 时，我已经收到这个错误很长时间了。 :~/hadoop$ bin/hdfs namenode -format 无法识别的选项：- 错误：无法创建 Java 虚拟机....

java ubuntu hadoop hdfs namenode

回答 1 投票 0

在集群部署模式下运行 Spark 提交作业失败，但通过客户端

EDITI：通过删除应用程序中“setMaster”的conf设置，我能够成功运行yarn-cluster - 如果有人可以帮助spark master作为集群部署 - 那会很棒我正在努力...

hadoop amazon-web-services amazon-s3 apache-spark

回答 0 投票 0

如果我的数据未分区，这就是我的 PySpark 作业出现 maxResultSize 错误的原因吗？

我的公司有一个生产中的 PySpark 作业，每天都在运行，但最近失败了，而自 1 月份首次部署该作业以来，它每天都成功。错误是关于...