amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

如何仅通过boto3获得与特定名称匹配的EMR的ID

如何获取与boto3的特定名称匹配的AWS EMR集群ID列表?我在这里有这段代码:import sys import time import boto3 client = boto3.client(“ emr”)cluster_name ='Adhoc-CSDP -...

回答 1 投票 0

具有Docker支持的EMR 6 Beta具有S3访问问题

我正在探索具有Docker支持的新EMR 6.0.0,以便决定是否要使用它。我们的项目之一是用Scala 2.11编写的。但是EMR 6.0.0带有从Scala 2.12构建的Spark。 ...

回答 1 投票 0

如何在AWS EMR上设置Hadoop fs.s3a.acl.default?

我有一个在AWS EMR上运行的map-reduce应用程序,该应用程序将一些输出写入不同的(aws帐户)s3存储桶。我具有权限设置,并且该作业可以写入外部存储桶,但...

回答 2 投票 0

[在Amazon EMR上的rdd.write.csv时如何处理S3内部服务器错误?

我有一个使用rdd.write.csv方法写入S3的pyspark Amazon Elastic Map Reduce(EMR)应用程序。 99.999%的时间有效。不幸的是,在0.001%的时间内,我们获得了内部...

回答 1 投票 0

emr-6.0.0-beta2 HiveLLAP vCore分配和利用率低

我有一个21节点的Hive LLAP EMR群集。 Hive LLAP守护程序不占用可用的群集VCPU分配。 YARN可使用160个内核,但每个LLAP守护程序仅使用1个vCore。每个节点都有64 GB ...

回答 1 投票 0

Spark在S3中创建额外的分区列

我正在将数据帧写入s3,如下所示。目标位置:s3:// test / folder val targetDf = spark.read.parquet(“ targetLocation”)val df1 = spark.sql(“ select * from sourceDf”)val df2 = ...

回答 1 投票 0

Spark Hive SQL返回空数据框

我正在使用Glue作为我的蜂巢元存储。我有一个小时工作,每小时将文件写入一个已注册的分区。表定义:CREATE EXTERNAL TABLE table_name(column_1 STRING,column_2 ...

回答 2 投票 0

java.lang.ClassNotFoundException:com.mysql.jdbc.Driver在Amazon EMR上的Jupyter Notebook中

[尝试从EMR Jupyter Notebook连接到RDS中的MySql数据库时,我发现以下错误:使用的代码:从pyspark.sql import SparkSession hostname =“ hostname” dbname =“ mysql” ...

回答 1 投票 0

使用MapR MultipleOutputs写入OrcNewOutputFormat时出错

我们从ORC文件中读取数据,并使用MultipleOutputs将其写回到ORC和Parquet格式。我们的工作仅是Map,没有reducer。在某些情况下,我们会遇到以下错误:...

回答 1 投票 2

如何在纱线群集模式下处理Spark App异常终止驱动程序

我们正在将AWS EMR用于我们的火花作业。我们所有的作业都以纱线群集模式提交,因此驱动程序将在群集节点之一中运行。我们将按需节点用作主节点,将点实例用于...

回答 2 投票 0

Apache Spark驱动程序日志未指定阶段取消的原因

我在YARN的AWS EMR上运行Apache Spark。该集群有1个主节点和10个执行者。经过几个小时的处理,我的集群失败了,我去查看日志。因此,我看到所有正在执行的执行者...

回答 1 投票 1

如何在Spark应用程序的EMR主节点上运行http服务器

我有一个在AWS EMR 5.28.0上运行的Spark流应用程序(Spark 2.4.4)。在主节点上的驱动程序应用程序中,除了设置Spark Streaming作业外,我还在运行http服务器(...

回答 1 投票 0

HUE文件管理器,能够创建HDFS子目录/文件夹,但无法将文件上传到HDFS

每次尝试上载文件时,我都会在HUE中收到“错误:未定义的消息”。我可以在HDFS中创建子目录/文件夹,但是文件上传不起作用。我尝试将文件复制到...

回答 1 投票 1

我如何使用腻子启动EMR群集

已经创建了Elastic Mapreduce群集并记下了主机名并生成了密钥。当我尝试登录时,出现超时错误。请帮助我登录

回答 1 投票 0

关于使用Scala创建jar文件时的org.apache.spark.sql.AnalysisException错误

我遵循简单的Scala类,稍后将对其进行修改以适合某些机器学习模型。我需要以此创建一个jar文件,因为我将在amazon-emr中运行这些模型。我是...

回答 1 投票 0

输出数据帧必须是,

import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.SparkSession /** * col1, col2, col3 * [line1filed1,line1filed2.1 line1filed2.2, line1filed3] * [line2filed1,line2filed2.1 line2filed2.2, line2filed3] * [line3filed1, line3filed2, line3filed3] * [line4filed1,line4filed2, null] * [line5filed1, null, line5filed3] */ object Multiline2 { val spark = SparkSession .builder() .appName("Multiline2") .master("local[*]") .config("spark.sql.shuffle.partitions", "4") //Change to a more reasonable default number of partitions for our data .config("spark.app.id", "Multiline2") // To silence Metrics warning .getOrCreate() val sc = spark.sparkContext val input = "/home/cloudera/files/tests/multiline2.csv" def main(args: Array[String]): Unit = { try { Logger.getRootLogger.setLevel(Level.ERROR) val data = sc.textFile(input) val header = data.first() val columns = header.split(",") import spark.implicits._ var aux = "" val multiline = data .filter(line => !line.equals(header)) .map(line => { if(line.contains("\")) { aux = line.substring(0,line.lastIndexOf("\")) "" } else { val l = s"$aux $line" aux = "" l } }) .filter(line => !line.equals("")) .map(line => line.split(",")) .map(r =>{ r.length match { case 2 => (r(0).trim,r(1).trim,"") case _ => (r(0).trim,r(1).trim,r(2).trim) }}) .toDF(columns(0).trim, columns(1).trim, columns(2).trim) multiline.show() // To have the opportunity to view the web console of Spark: http://localhost:4040/ println("Type whatever to the console to exit......") scala.io.StdIn.readLine() } finally { sc.stop() println("SparkContext stopped.") spark.stop() println("SparkSession stopped.") } } }

回答 1 投票 2

Amazon EMR仅使用一个核心节点,但是我有两个核心节点

我正在尝试使用EMR进行爬网。目标服务器可以识别客户端IP,因此我想为每个核心节点运行一个执行程序。目前,我有一个主节点和两个核心节点。核心节点的类型...

回答 1 投票 0

从AED S3存储桶读取时,警告会导致失败

我正在两个表之间进行简单的内部联接,但是我不断收到如下所示的警告。我在其他帖子中看到可以忽略该警告,但是我的工作以失败而告终,并且没有进展....

回答 1 投票 0

当使用403写入S3时,在EMR上运行的火花偶尔会失败

我有一个可在AWS EMR上运行的Spark作业。作业进行一些数据处理,并将数据帧作为csv写入s3。作业偶尔会失败,同时写入s3并抛出403。我几乎是...

回答 1 投票 0


© www.soinside.com 2019 - 2024. All rights reserved.