amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

spark s3n是否支持端点类似于s3a

我有一个端点服务器,可以正常工作在spark中的s3a文件系统现在我想支持s3n://和s3://任何人都有任何建议来实现这个目标吗?

回答 3 投票 0

找到Livy No YARN应用程序,标签为livy-batch-10-hg3po7kp,耗时120秒

使用Livy通过从EMR启动的POST请求执行存储在S3中的脚本。该脚本运行但很快就会超时。我试过编辑livy.conf配置,但没有...

回答 2 投票 1

S3中的压缩数据需要用于EMR或Redshift上的机器学习

我在S3存储中有压缩格式的巨大CSV文件。我只需要数据中的一部分列用于机器学习目的。我应该如何将这些列提取到EMR然后再提取到Redshift ...

回答 2 投票 0

为什么EMR上的Yarn不会将所有节点都分配给运行Spark作业?

我在Amazon Elastic Map Reduce(EMR)上运行Apache Spark上的工作。目前我正在运行emr-4.1.0,其中包括Amazon Hadoop 2.6.0和Spark 1.5.0。当我开始工作时,YARN正确地......

回答 2 投票 12

为emr上的`spark-submit`作业指定marksweep gc

在emr上运行spark-submit作业时,如何指定我希望jvm使用MarkSweep gc?我可以提交作业(即spark-submit - conf ...),如果是,那么命令是什么?是......

回答 1 投票 0

Hadoop Yarn容器日志丢失

我们通常可以在“/ var / log / hadoop-yarn / containers”路径中查看纱线容器日志。虽然我能够看到成功作业的日志,但我无法查看失败作业的日志。节点......

回答 1 投票 2

指定Hive插入的最小生成文件数

我在AWS EMR上使用Hive将查询结果插入到按日期分区的Hive表中。虽然每天的总输出大小相似,但生成的文件数量各不相同,通常......

回答 1 投票 1

从Google Cloud Bigtable到AWS EMR(HBase)

如何将HBase表从Cloud Bigtable导出到AWS EMR?我知道有一种官方方法可以使用Google Cloud Dataflow runner将HBase表格导出到Google Storage。但导出的文件是......

回答 1 投票 4

AWS-EMR错误退出代码143

我在AWS EMR上运行分析,我收到意外的SIGTERM错误。一些背景:我正在运行一个脚本,它读入我存储在S3上的许多csv文件,然后执行...

回答 1 投票 1

在单个EMR群集中调用多个火花作业

我想在单个EMR集群中使用spark-submit调用多个spark作业。 EMR支持这个吗?怎么做到这一点?我使用AWS Lambda来为我的spark工作调用EMR作业......

回答 1 投票 1

如何使用ODBC连接器连接胶水ETL / Spark中的关系数据库

我需要在AWS生态系统中使用ODBC Connector从RDBMS中提取数据。 AWS Glue不提供ODBC连接。如何使用spark中的ODBC驱动程序将我的spark代码与Relational DB连接起来。一世 ...

回答 1 投票 0

如何让Zeppelin在EMR集群上干净地重启?

我正在运行EMR集群并尝试使用Zeppelin笔记本进行数据分析。版本:发行标签:emr-5.2.1 Hadoop发行版:Amazon 2.7.3 Hive 2.1.0 Spark 2.0.2 Zeppelin 0.6.2我...

回答 4 投票 8

可以将spark配置为将空数据集推断为空模式

我们有很多镶木地板数据集,按年/月/日/小时划分。只有一个_SUCCESS文件,其中一些时间是空的。我们实现迭代所有分区的作业......

回答 1 投票 2

使用Insert语句HIVE EMR AWS中的语句

Hive无法在INSERT命令中识别我的WITH语句。我如何让蜂巢了解这一点?我已经创建了外部配置单元表来存储此查询中引用的所有数据。 ...

回答 1 投票 0

从yarn cli获取emr主节点的ip

为了获得emr从属节点的ip地址列表,必须运行以下代码:yarn node -list 2> / dev / null \ | sed -n“s / ^ \(ip [^:] * \):。* / \ 1 / p”纱线节点-list恰好打印...

回答 1 投票 0

在CloudFormation中为EMR主节点专用IP地址创建记录

我想知道是否有办法在CloudFormation配置中声明AWS :: Route53 :: RecordSet,该配置指向EMR集群上主节点的私有IP地址,该集群也在...中定义。

回答 2 投票 0

在EMR中添加S3同步步骤

执行完所有步骤后,我想执行最后一步将S3数据复制到另一个存储桶。我没有找到任何支持的脚本来运行shell命令https://docs.aws.amazon.com/emr / ...

回答 1 投票 0

使用docker exec执行主机上存在的shell脚本时出现问题

我正在尝试在AWS EMR集群的主节点上执行脚本。目的是创建一个新的conda env并将其链接到jupyter。我正在关注AWS的这个文档。问题是,无论是......

回答 1 投票 1

VEM中的AWS EMR Apache Spark和自定义S3端点

我在VPС中使用Apache Spark和Redshift,并使用AWS S3作为Redshift COPY的源数据和临时数据。现在我怀疑从/到AWS S3的读/写性能不够好......

回答 1 投票 0

在AWS EMR中启用Spark Web UI

我在EMR集群上提交Spark作业,我希望看到Spark Web UI,它提供有关主节点和工作节点的配置和状态的信息。配置......

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.