amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

在 AWS EMR 集群上安装 my_sql 时出错

我正在尝试在我的 EMR 集群上启动 MYSQL，但它显示为 ERROR 1045 (2800): Access denied as shown in picture posted 。我应该做什么？错误执行这些命令后： wget https:/...

amazon-emr mysql-connector

回答 1 投票 0

使用自定义密钥提供程序的 AWS EMR 加密 - 自签名与受信任的 CA 证书

希望使用自定义证书在 EMR 节点之间进行传输加密。由于我没有使用自己域的 DHCP 选项集，因此 EMR 实例将拥有类型为 *...

amazon-web-services ssl ssl-certificate amazon-emr

回答 0 投票 0

获取VS代码Python扩展以连接到远程AWS EMR主节点上运行的Jupyter。

我有一个工作的Jupyter服务器运行在EMR主节点上，我可以运行python和pyspark代码，没有问题。当试图让VS Code Python扩展连接到非常相同的 ...

visual-studio-code amazon-emr vscode-python

回答 1 投票 0

在AWS EMR上遇到Spark作业的CPU利用率非常低的情况。

我们有一个spark作业，读取csv文件，并应用一系列的转换，并将结果写入一个orc文件，spark作业分为近20个阶段，并运行了约一个小时......

apache-spark amazon-ec2 amazon-emr

回答 1 投票 0

添加pyspark脚本作为AWS步骤

我有一个pyspark脚本来读取一个xml文件（存在于S3中）。我需要将其添加到aws中作为一个步骤。我已经使用了以下命令aws emr add-steps - cluster-id。 - 步骤 Type=spark,...

amazon-web-services pyspark amazon-emr

回答 1 投票 0

从Pyspark EMR访问AWS RDS。

我正试图使用EMR中的Pyspark访问RDS中的一些表。我试着在usrsharejava中安装JDBC驱动程序，但看起来像火花没有从pyspark.sql导入的驱动程序......

apache-spark jdbc pyspark amazon-emr rds

回答 1 投票 0

未找到AWS EMR psycopg2模块。

我正在AWS Elastic Map Reduce集群中执行一个spark作业。我有同样的问题与boto3。然而，我用我的bootstrap脚本解决了这个问题，如下#！binbash sudo pip-3.6 install ....

apache-spark pyspark pip psycopg2 amazon-emr

回答 1 投票 0

AWS EMR Bootstrap的添加或更新

我已经创建了一个AWS EMR集群。是否可以将bootstrap动作添加到现有的EMR集群中？我打算只将它用于任务节点（在自动伸缩期间）。我已经通过AWS ...

amazon-web-services hadoop amazon-emr

回答 1 投票 0

从hadoop1迁移到hadoop2后，如何恢复hadoop Map reduce作业的性能？

从hadoop 1.0.3 ->hadoop 2.8.5迁移后，Hadoop Map reduce作业性能(执行作业时间)下降(5min->15min)，详情如下。我有Hadoop Map reduce作业在AWS EMR中执行。

java hadoop mapreduce amazon-emr

回答 1 投票 0

spark如何获取读取parquet文件的任务数？

我有271个parquet小文件（9KBfile）在同一个目录下的s3 bucket。所以，我想了解spark在读取这些文件时是如何得到任务数的？集群是aws EMR 5.29 ....

apache-spark parquet amazon-emr

回答 1 投票 0

在调用o67.load时发生错误：java.lang.NoClassDefFoundError：orgapachehadoopfsstagingStagingDirectoryCapable。

场景如下。我试图计算一个文件的记录计数在s3位置，从EMR通过读取它的火花。我得到的错误是：当调用o67.load时：java...。

apache-spark hadoop amazon-s3 airflow amazon-emr

回答 1 投票 0

如何创建一个限制资源的自动缩放IAM角色？

如果我正在创建自定义的自动缩放策略，并尝试只限制资源statrting与KJ，而创建EMR自动缩放状态是失败的，除此之外，如果我指定 "*"，那么它的工作......

amazon-web-services terraform amazon-iam amazon-emr autoscaling

回答 1 投票 0

如何添加EMR火花步骤？

根据文档。对于步骤类型，选择Spark应用。但在Amazon EMR -> Clusters -> mycluster -> Steps -> Add step -> Step type中，唯一的选项是：对于步骤类型，选择Spark应用。

amazon-web-services apache-spark amazon-emr

回答 1 投票 0

topic

通过mapPartitions类型的方法。

pyspark apache-spark-sql amazon-emr hadoop-partitioning

回答 1 投票 0

start_date

我有一个 pyspark 数据框架，其中包含两列，我想从这两列中创建一个时间戳。

python apache-spark pyspark etl amazon-emr

回答 1 投票 1

不能用Java JDBC从AWS EMR上的Presto连接查询。

如果我ssh到presto emr集群的主节点上，我可以运行查询。然而，我希望能够在连接到emr集群的本地机器上从java源代码运行查询。I ...

jdbc amazon-ec2 amazon-emr presto

回答 1 投票 1

Number

amazon-web-services hive amazon-emr

回答 1 投票 0

使用DynamoDBMapper加密EMR中的数据时出现IllegalAccessError。

我按照这个文档：https:/docs.aws.amzon.comdynamodb-encryption-clientlatestdevguidejava-examples.html和设置加密客户端和映射器来加密一个项目并批量保存到Table ...

scala apache-spark amazon-dynamodb amazon-emr

回答 1 投票 0

aws EMR 5.23.0版本是否支持python 3.7.x版本？

目前，我们使用EMR 5.23.0版本来提交pyspark作业，我们想把python版本升级到3.7，想了解一下目前EMR 5.23.0版本是否支持python 3.7。我们想把python版本升级到3.7，想检查一下当前EMR 5.23.0版本是否支持python 3.7。没有...

python-3.x amazon-web-services pyspark amazon-emr

回答 1 投票 0

用spark读取多个json模式。

软件配置：Hadoop发行版：Amazon 2.8.3 应用：Hive 2.3.2，Pig 0.17.0，Hue 4.1.0 Hadoop distribution:Amazon 2.8.3 Applications:Hive 2.3.2, Pig 0.17.0, Hue 4.1.0, Spark 2.3.0 Tried to read with multiple json schema, val df = spark.read.option("...")

json scala amazon-web-services hadoop2 amazon-emr

回答 1 投票 3

amazon-emr 相关问题

最新问题