amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

Python包未导入AWS EMR中

我正在尝试通过Livy向EMR集群提交工作。我的Python脚本(要提交作业)需要导入一些软件包。我已经将所有这些软件包安装在EMR的主节点上。主脚本...

回答 1 投票 0

AWS S3块大小,用于计算Hive工作负载的映射器总数

S3是否以块形式存储数据?如果是,默认块大小是多少?有没有办法改变块大小?

回答 1 投票 0

AWS EMR |指向AWS S3时的映射器总数

如果我们触发指向S3位置的Hive工作负载,我很想知道EMR集群将如何决定映射器的总数。在S3中,数据不是以块形式存储的,因此...

回答 1 投票 0

Parquet列无法在文件中转换,应该是:bigint,找到是:INT32

我有一个带有tlc列的粘合表,其数据类型为Bigint。我正在尝试使用PySpark执行以下操作:读取Glue表并将其写入数据帧中与另一个表连接写...

回答 1 投票 0

Amazon EC2与EMR之间的差异

我是Amazon云服务的新手。在研究它时,遇到了EC2和EMR的术语到目前为止,我了解到的是,EC2就像一台普通的云计算机,而EMR是一组EC2云...

回答 1 投票 0

将整数/字符串从群集写入pyspark中的文本文件

我正在使用EMR步进功能来分析数据。我想存储已分析数据帧的计数,以确定是否可以将其保存为csv或镶木地板。我更喜欢CSV,但如果尺寸太大,...

回答 1 投票 0

如何通过使用SDK使Scala代码在EMR集群上运行?

我与Scala编写了代码,以在EMR中运行集群。另外,我有一个用Scala编写的Spark应用程序。我想在EMR群集上运行此Spark应用程序。但是我可以在...

回答 2 投票 0

无法在AWS EMR群集中使用配置单元创建外部表,其中位置指向某些S3位置

我正在尝试使用AWS EMR群集的配置单元服务创建外部表。在这里,此外部表指向一些S3位置。以下是我的创建表定义:EXTERNAL TABLE if ... ...>

回答 1 投票 1

重新创建EMR群集后仍保持HDFS状态

是否可以在重新创建emr群集后将HDFS存储的状态持久化?以我的经验,本地存储的所有文件都丢失了。是否可以选择使用已安装的卷,...

回答 1 投票 0

StreamingFileSink批量编写器在AWS EMR中运行时会导致某些检查点错误

无法使用StreamingFileSink并以压缩方式存储传入事件。我正在尝试使用StreamingFileSink将无限事件流写入S3。在此过程中,我想压缩...

回答 1 投票 2

当我从EMR集群的EC2主实例从AWS命令行运行dir命令时,我在看什么?

当我从EMR群集中的主实例执行dir命令时,我是否正在查看跨从属的master或HDFS文件夹的文件结构? / home / ssm用户位于何处?

回答 1 投票 0

如何从EMR的S3存储桶中读取XML文件?

我已将XML文件存储在S3存储桶中,并希望在键入以下内容后在EMR上读取它们:sqlContext.read.format(“ com.databricks.spark.xml”)。option(“ rowTag”,“ Profile”)。load( xml_file_path)它给了我错误:...

回答 1 投票 0

EMR中用于长期运行的作业和多个小型运行的作业的资源优化/利用

我的用例:我们的Spark任务长期运行。此后称为LRJ。该作业每周运行一次。我们有多个随时可以进行的小型运行作业。这些作业的优先级高于...

回答 1 投票 1


错误:java.lang.IllegalStateException:用户未初始化spark上下文

Scala版本:2.11.12 Spark版本:2.4.0 emr-5.23.0。运行以下命令以创建Amazon EMR集群spark-submit --class etl.SparkDataProcessor --master yarn-。时,请获取以下内容。 。

回答 1 投票 0

如何在EMR齐柏林飞艇上安装boto3

我正在使用AWS EMR上的Zeppelin笔记本编写一些pyspark代码。当我尝试导入boto3时,出现以下错误:无法执行第1行:import boto3 Traceback(最近一次调用最后一次):文件“ / tmp / ...

回答 1 投票 0

如何在纱线模式下访问Spark Web UI

我正在作为AWS EMR步骤运行pyspark作业,该脚本需要花费超过15分钟的时间来运行。我在EMR群集中有1个主节点和3个核心节点。我想找出原因以及脚本的哪一部分...

回答 1 投票 0

在sqoop导出中,将长文本列的Sqoop列设为null

我正在尝试使用sqoop export将记录从S3导出到Mysql Aurora。 S3中的一种数据类型类似于clob,其长文本和XML文件以string的形式存储在其中。当我运行sqoop ...

回答 1 投票 0

[如何使在Amazon EMR上运行的Pyspark脚本识别boto3模块?表示找不到模块

Spark版本2.4.5,我有一些文件需要在S3存储桶中处理。 (s3a:// tobeprocessed)我有一个pyspark应用程序,该应用程序从S3存储桶中读取文件并将输出写入另一个S3 ...

回答 1 投票 1

使用分区键和索引的DynamoDB搜索

我还没有看到使用分区键和索引(python,boto方式)进行DynamoDB搜索的示例。是否可以直接指向任何链接/示例?

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.