amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

在Amazon EMR上运行Spark 2.4.3的网络依赖问题

我正在尝试在Amazon EMR上运行一个简单的Spark SQL应用程序。 Spark的版本是2.4.3和EMR 5.26.0。尝试创建...

scala apache-spark apache-spark-sql amazon-emr

回答 1 投票 1

将经过训练的xgboost分类器从AWS s3上载到EMR

我在S3中有一个训练有素的xgboost分类器对象，我试图将其上传到Pyspark EMR笔记本。我已经尝试过s3 = boto3.client（'s3'）分类器= s3.download_file（“ ### data-science”，“ ...

python amazon-emr

回答 1 投票 2

无法在AWS EMR上下载nltk语料库，对关闭的文件进行I / O操作

[使用JupyterLab打开我的EMR集群后。我无法使用nltk.download（）下载其他语料库。代码nltk.download（'wordnet'）对关闭的文件Traceback进行错误的I / O操作（最新...

python amazon-web-services nltk amazon-emr

回答 1 投票 0

无法访问EMR群集jupyter笔记本中的pyspark

我已经在EMR上创建了一个火花集群。但是当我用笔记本打开pyspark时，我无法访问它。配置：示例：从pyspark import SparkContext我也无法访问我曾经是的sc ...

python amazon-web-services pyspark amazon-emr

回答 1 投票 0

复制S3“文件夹”的最有效方法是什么？

我想找到一种有效的方法，将具有很多对象的S3文件夹/前缀复制到同一存储桶中的另一个文件夹/前缀。这就是我尝试过的。测试数据：大约200个对象，大约100 MB ...

scala amazon-web-services apache-spark amazon-s3 amazon-emr

回答 1 投票 0

不支持数据类型间隔-Spark SQL

我正在AWS EMR上运行查询，并且该行出现查询错误-to_date（'1970-01-01'，'YYYY-MM-DD'）+ CAST（concat（mycolumn，'seconds'）AS INTERVAL ）AS date_col错误-数据类型...

sql apache-spark amazon-emr

回答 1 投票 0

在Amazon EMR上运行Python UDF

我正在尝试使EDF在EMR上运行，并且遇到了麻烦。我的脚本当前如下所示：从pyspark.sql导入pyspark.sql.functions的SparkSession从pyspark.sql导入pandas_udf。...

python pyspark amazon-emr

回答 1 投票 0

如何在pyspark中读取二进制数据

我正在使用pyspark阅读二进制文件http://snap.stanford.edu/data/amazon/productGraph/image_features/image_features.b。从io导入数组导入StringIO img_embedding_file = sc.binaryRecords（“ ...

apache-spark pyspark apache-spark-sql pyspark-sql amazon-emr

回答 1 投票 0

AWS-EMR-S3DISTCP-AWS为s3动作收费吗？

我正在研究s3distcp的文档（https://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html），但找不到任何明确提及..成本的站点。。

amazon-s3 amazon-emr s3distcp aws-billing

回答 1 投票 0

如何允许pyspark在emr群集上运行代码

我们将python与pyspark api结合使用，以便在spark集群上运行简单的代码。从pyspark导入SparkContext，SparkConf conf = SparkConf（）.setAppName（'appName'）.setMaster（'spark：// clusterip：7077'）...

apache-spark pyspark port devops amazon-emr

回答 2 投票 1

使用Sqoop将表从AWS RDS移至AWS EMR的问题

我有一个使用Postgres的带有单个表的AWS RDS数据库。现在，我想将数据移至AWS EMR，以便可以使用Hadoop对其进行处理。我找到了这个博客：https：//aws.amazon.com/blogs/big-data / ...

amazon-web-services amazon-rds sqoop amazon-emr

回答 1 投票 0

从Hive的多个表中选择count（*）

我在2个不同的模式中有相同名称的表。我想做的是在两个表中以TableName的形式进行计数比较：Count1：Count2如何通过Hive查询来实现这一点？

hive hiveql amazon-emr hive-query

回答 3 投票 0

为什么我们可以对AWS的EMR群集使用竞价型实例？

[我在AWS实践中遇到了这个问题，希望在此处进行进一步讨论：您的公司正在计划使用AWS中提供的EMR服务来运行其大数据...