amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

EMR 任务节点中的 Shuffle 日志填满磁盘

我在 EMR 6.9 上运行 Spark 3 作业，并且它正在连续运行作业。我注意到随着时间的推移，任务节点的磁盘使用量逐渐增加。我注意到任务节点上出现这样的错误 - ...

apache-spark hadoop-yarn amazon-emr

回答 1 投票 0

在 AWS 上，每天运行 AWS CLI 命令

我有一个 AWS CLI 调用（在本例中，启动已配置的 EMR 集群来执行一些步骤，然后关闭），但我不确定如何每天运行它。我想一种方法是......

amazon-web-services aws-cli amazon-emr

回答 3 投票 0

Redshift 将布尔数据类型解释为位，因此如果存在任何布尔数据类型列，则无法将 hudi 表从 S3 移动到 Redshift

我正在 AWS 中创建一个数据管道，用于通过 EMR 将数据从 S3 移动到 Redshift。数据以 HUDI 格式存储在 S3 的 parquet 文件中。我已经创建了用于全负载传输的 Pyspark 脚本并且...

python pyspark amazon-redshift amazon-emr apache-hudi

回答 1 投票 0

ClassNotFoundException：使用 elasticsearch-hadoop for Spark 时的 scala.Product$class

我正在 AWS EMR 上运行 Spark-Submit 作业从elasticsearch节点读取。当作业执行此命令时 Python： es_config = { “es.nodes”：url_to_my_node， “es.port&q...

apache-spark elasticsearch hadoop amazon-emr

回答 1 投票 0

如何在scala中传递map中存在的列表元素？

我目前正在学习scala-spark，所以请耐心等待。我正在尝试将函数应用于 scala 数据框来创建一个新列，如下所示 - 导入 org.apache.spark.sql.functions._ 导入 org.apa...

scala apache-spark amazon-emr

回答 1 投票 0

如何让 Amazon EMR 中的 Trino 同时支持 AWS Glue 数据目录中的 Delta 表和 Postgres 表？

我有一些由 AWS Glue 爬网程序在 AWS Glue 数据目录中注册的 Delta 表和 Postgres (Amazon RDS) 表：我最初创建了一个 Amazon EMR 集群 aws emr 创建集群 \ --名字...

postgresql amazon-web-services aws-glue amazon-emr trino

回答 1 投票 0

在 DBT 中使用 Nessie 命令但不使用 Spark 时出现语法错误

我们正在尝试使用 AWS EMR（在 EC2 上）、DBT、Spark 和 Nessie 设置环境。即使所有扩展都已正确安装，并且像“CREATE BRANCH”这样的 Nessie 命令也可以在 clu 上工作...

apache-spark amazon-emr thrift dbt nessie

回答 2 投票 0

对 AWS EMR 的安装充满期待

我尝试对数据质量抱有很大的期望我正在 AWS EMR 集群中运行我的作业，并且我也尝试在 AWS EMR 上启动寄予厚望的作业我有

python amazon-emr great-expectations

回答 2 投票 0

PySpark monotonically_increasing_id 结果在本地和 AWS EMR 上不同

我创建了一个小函数，它将为每一行分配一个复合 id，以便在给定子集大小的情况下将行本质上分组为较小的子集。在我的本地计算机上，逻辑运行完美。有一次我

python apache-spark pyspark amazon-emr distributed-computing

回答 1 投票 0

pyspark monotonically_increasing_id 奇怪的行为

我无法确定确切的原因，所以希望其他人知道。我创建了一个小函数，它将为每一行分配一个复合 id，以将行本质上分组为更小的子集，给出...

python python-3.x pyspark amazon-emr

回答 1 投票 0

在 AWS EMR 中运行 Spark sql 查询

我设置了一个 AWS EMR 集群。我选择了emr-6.0.0。所选的应用程序是： Spark：Hadoop 3.2.1 YARN 上的 Spark 2.4.4 以及 Ganglia 3.7.2 和 Zeppelin 0.9.0-SNAPSHOT 之后我创建了一个ju...

amazon-web-services apache-spark pyspark hive amazon-emr

回答 1 投票 0

EMR 上的 GCS 连接器因 java.lang.ClassNotFoundException 失败

我已经创建了一个 emr 集群，其中包含有关如何从此处提供的 gcs 创建连接并继续运行 hadoop distcp 命令的说明。它不断失败并出现以下错误： 2023-...

amazon-web-services google-cloud-storage amazon-emr distcp s3distcp

回答 1 投票 0

EMR-Spark 工作负载过大的问题

我正在尝试使用 Spark 在 EMR 中运行繁重的工作负载。我的记录数接近 50 亿。我正在对其他数据帧进行诸如连接、分组、排序等转换，这些数据帧也有数十亿......

amazon-web-services apache-spark amazon-emr

回答 0 投票 0

无法使用 jupterlab 的 pyspark 代码从 EKS 上的 EMR 读取 s3a 路径

尝试从 EKS 上的 EMR（使用托管端点）在 Pyspark 内核上运行以下代码，我尝试设置一些 s3a 相关的 Spark 配置，但似乎不起作用从 pyspark.sql 导入 SparkSession # 创造...

amazon-eks amazon-emr spark3 amazon-s3-access-points

回答 0 投票 0

将 Drill 版本升级到 > 1.14.0 时出现异常 NoClassDefFoundError JniBasedUnixGroupsMapping

对于安装在 Hadoop EMR 核心节点上的 Drill 集群，我们使用基于 PAM 的身份验证。这是下面的配置。安全.用户.auth: { 启用：真，包裹 +=...

hadoop hadoop-yarn amazon-emr apache-drill

回答 0 投票 0

优化Spark资源，避免内存和空间占用

我有一个大约 190GB 的数据集，被划分为 1000 个分区。我的 EMR 集群最多允许 10 个 r5a.2xlarge TASK 节点和 2 个 CORE 节点。每个节点有 64GB mem 和 128GB EBS

apache-spark pyspark amazon-emr

回答 2 投票 0

EMR集群容量规划

我们计划使用 EMR 集群来处理 80 GB 的 Parquet 数据。我们想要规划为此所需的总核心和任务节点。我从 AWS 看到了这份用于规划能力的文档...

amazon-web-services amazon-emr

回答 0 投票 0

Spark Executor 连接正在接近

您好，我正在阅读 parquet 文件，但在 AWS EMR 中遇到以下错误：- 错误 TransportResponseHandler：从 ip-100-73-112-181.ec2.interna 连接时仍有 518 个请求未完成...

java apache-spark pyspark apache-spark-sql amazon-emr

回答 0 投票 0

从 Apche Spark 读取 AWS DynamoDb 记录始终返回空数据集

我正在关注这篇文章，我想在我的 Spark 作业中从 dynamodb 读取数据。问题是我从 dynamo db 读取的数据集始终为空。我知道这一点是因为这个声明：系统....

apache-spark amazon-dynamodb amazon-emr

回答 1 投票 0

仅加载部分 HBase/Phoenix 表作为 Spark Datafrom

我在 Spark 中使用以下代码将我的 HBase/Phoenix 表的指定列加载到 Spark Dataframe 中。我可以指定要加载的列，但我可以指定哪些行吗？还是我...

apache-spark hbase amazon-emr apache-phoenix

回答 1 投票 0

amazon-emr 相关问题

最新问题