amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

AWS EMR群集中的磁盘空间问题

我们在AWS中配置了11个节点(1个主机+10个核心)EMR集群。我们为每个节点选择了100 GB的磁盘空间。配置群集时,EMR自动仅分配10GB到...

回答 3 投票 0

查询EMR-Presto和Athena之间的结果差异

我已将Glue目录连接到Athena和EMR实例(已安装presto)。我尝试在两者上运行相同的查询但是得到了不同的结果。 EMR给0行,但雅典娜给...

回答 1 投票 1

EMR命令运行器如何提交作业

你能否帮我弄清楚你部署EMR后到底发生了什么?主要等于本地[x]的群集? command-runner.jar如何向EMR的主人提交工作?如果我通过“--. ..

回答 1 投票 1

如何使用boto3(或其他方式)在emr上自动执行pyspark作业?

我正在创建一个解析大量服务器数据的工作,然后将其上传到Redshift数据库。我的工作流程如下:从S3获取日志数据使用spark数据帧或spark ...

回答 3 投票 10

AWS CLI EMR获取主节点实例ID并对其进行标记

我想自动运行集群,并且可以使用标签来获取EC2实例的属性,例如它的instance-id。 https://docs.aws.amazon.com/cli/latest/reference/emr /上的文档

回答 1 投票 2

Spark 2.3.1 AWS EMR不返回某些列的数据,但仍适用于Athena / Presto和Spectrum

我在AWS EMR上使用Spark 2.3.1上的PySpark(Python 2.7.14)spark = SparkSession \ .builder \ .appName(“Python Spark SQL数据源示例”)\ .config(“hive.metastore.client.factory。 ...

回答 2 投票 3

Amazon EMR - 特定EMR版本的应用程序列表?

我需要获取特定Amazon EMR版本的应用程序列表。 AWS中是否有可用的api?

回答 1 投票 0

AWS EMR未生成NameNode FsImage

我们一直在运行3节点AWS EMR集群(1个NameNode,2个DataNode)。我们发现没有发生Namenode检查指向,并且fsImage,md5文件没有更新。编辑日志堆积如山......

回答 1 投票 3

如何激发提交作业到其他集群上的纱线?

我有一个安装了spark的docker容器,我正在尝试使用marathon将作业提交到其他集群上的yarn。 docker容器具有纱线和hadoop conf dir的导出值,...

回答 1 投票 0

Python pip install pyarrow 报错,无法执行'cmake'

我正在尝试在我的 EMR 集群的主实例上安装 pyarrow,但是我总是收到此错误。 [hadoop@ip-XXX-XXX-XXX-XXX ~]$ sudo /usr/bin/pip-3.4 安装 pyarrow 收集...

回答 5 投票 0

作为shell脚本的一部分,sudo su无法正常工作。任何替代?

以下3行是我的shell脚本的一部分,但它正在执行第一行并正确复制文件。按顺序执行此rpm文件,我需要提示root用户。因此,我写了第二步。但它 ...

回答 3 投票 -1

在emr 5.16上将jupyterhub notebook_dir设置为s3

有没有办法将notebook-dir重定向到EMR-Cluster的JSON配置文件中的s3,以启动集群。我使用了以下分类:“jupyter-notebook-conf”并设置...

回答 1 投票 0

如何将AWS Kinesis流用于多个不同的数据源

我们有一个传统的批处理应用程序,我们从多个来源(Oracle,Salesforce,FTP文件,Web日志等)中提取数据。我们将传入的数据存储在S3存储桶中并在EMR上运行Spark以...

回答 1 投票 0

如何跨EMR集群中的节点运行python代码

我有一个Amazon EMR集群--30个节点我的Python代码看起来像这样 - spark = SparkSession \ .builder \ .appName(“App”)\。config(conf = sparkConf)\。getOrCreate()...

回答 1 投票 0

针对AWS EMR的AWS Glue定价

我正在对AWS Glue与AWS EMR进行一些定价比较,以便在EMR和Glue之间进行选择。我已经考虑了6个DPU(4个vCPU + 16 GB内存),ETL作业运行10分钟...

回答 2 投票 5

如何在EMR上启动主站和从站

我是EMR的新手,现在我无法在EMR上运行我的Spark应用程序。我的问题是如何在EMR上启动$ start-master.sh和$ start-slave.sh。我将这2个命令放入bash文件并上传到S3以获取...

回答 3 投票 1

如何为Amazon EMR生成trustedCertificates.pem和certificateChain.pem文件?

我正在尝试加密EMR节点之间传输的TLS流量。 AWS网站上的示例使用自签名证书。因为这都在我的私人网络中,所以我生成了一个根...

回答 1 投票 0

不允许使用EMR Master SSH

要运行Scala spark作业并运行spark shell查询......我一直在进入EMR的Masternode,现在负责管理云的团队不允许我SSH到EMR ...

回答 1 投票 0

找到Spark的Scala安装

我正在使用EMR并且可以启动spark-shell,但我想运行Scala REPL。目前,当我在shell上键入scala命令时,它说:-bash:scala:command not found如何找到并运行Scala REPL给...

回答 1 投票 1

Spark 2.2.0 FileOutputCommitter

Spark 2.2.0中不再提供DirectFileOutputCommitter。这意味着写入S3需要花费很长时间(3小时vs 2分钟)。我可以通过设置FileOutputCommitter来解决这个问题...

回答 1 投票 6

© www.soinside.com 2019 - 2024. All rights reserved.