amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

在Amazon EMR上运行Spark 2.4.3的网络依赖问题

我正在尝试在Amazon EMR上运行一个简单的Spark SQL应用程序。 Spark的版本是2.4.3和EMR 5.26.0。尝试创建...

回答 1 投票 1

将经过训练的xgboost分类器从AWS s3上载到EMR

我在S3中有一个训练有素的xgboost分类器对象,我试图将其上传到Pyspark EMR笔记本。我已经尝试过s3 = boto3.client('s3')分类器= s3.download_file(“ ### data-science”,“ ...

回答 1 投票 2

无法在AWS EMR上下载nltk语料库,对关闭的文件进行I / O操作

[使用JupyterLab打开我的EMR集群后。我无法使用nltk.download()下载其他语料库。代码nltk.download('wordnet')对关闭的文件Traceback进行错误的I / O操作(最新...

回答 1 投票 0

无法访问EMR群集jupyter笔记本中的pyspark

我已经在EMR上创建了一个火花集群。但是当我用笔记本打开pyspark时,我无法访问它。配置:示例:从pyspark import SparkContext我也无法访问我曾经是的sc ...

回答 1 投票 0

复制S3“文件夹”的最有效方法是什么?

我想找到一种有效的方法,将具有很多对象的S3文件夹/前缀复制到同一存储桶中的另一个文件夹/前缀。这就是我尝试过的。测试数据:大约200个对象,大约100 MB ...

回答 1 投票 0

不支持数据类型间隔-Spark SQL

我正在AWS EMR上运行查询,并且该行出现查询错误-to_date('1970-01-01','YYYY-MM-DD')+ CAST(concat(mycolumn,'seconds')AS INTERVAL )AS date_col错误-数据类型...

回答 1 投票 0

在Amazon EMR上运行Python UDF

我正在尝试使EDF在EMR上运行,并且遇到了麻烦。我的脚本当前如下所示:从pyspark.sql导入pyspark.sql.functions的SparkSession从pyspark.sql导入pandas_udf。...

回答 1 投票 0

如何在pyspark中读取二进制数据

我正在使用pyspark阅读二进制文件http://snap.stanford.edu/data/amazon/productGraph/image_features/image_features.b。从io导入数组导入StringIO img_embedding_file = sc.binaryRecords(“ ...

回答 1 投票 0

AWS-EMR-S3DISTCP-AWS为s3动作收费吗?

我正在研究s3distcp的文档(https://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html),但找不到任何明确提及..成本的站点。 。

回答 1 投票 0

如何允许pyspark在emr群集上运行代码

我们将python与pyspark api结合使用,以便在spark集群上运行简单的代码。从pyspark导入SparkContext,SparkConf conf = SparkConf().setAppName('appName').setMaster('spark:// clusterip:7077')...

回答 2 投票 1

使用Sqoop将表从AWS RDS移至AWS EMR的问题

我有一个使用Postgres的带有单个表的AWS RDS数据库。现在,我想将数据移至AWS EMR,以便可以使用Hadoop对其进行处理。我找到了这个博客:https://aws.amazon.com/blogs/big-data / ...

回答 1 投票 0

从Hive的多个表中选择count(*)

我在2个不同的模式中有相同名称的表。我想做的是在两个表中以TableName的形式进行计数比较:Count1:Count2如何通过Hive查询来实现这一点?

回答 3 投票 0

为什么我们可以对AWS的EMR群集使用竞价型实例?

[我在AWS实践中遇到了这个问题,希望在此处进行进一步讨论:您的公司正在计划使用AWS中提供的EMR服务来运行其大数据...

回答 1 投票 -1

DynamoDBStorageHandler Hive连接器

[当我从EMR群集中的Hive shell运行此命令时:创建外部表my_db.my_table(col1字符串,...)由'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler'存储... ...

回答 1 投票 0

纱线上的链接意外发生块数据错误

我有一个Flink应用程序,该应用程序使用来自Kafka群集的数据并运行SQL数据转换。我正在EMR上运行此应用程序,并且当我使用Java -jar选项运行时,该应用程序以...

回答 1 投票 0

无法访问EMR 5.28.0上的boto3

我使用AWS UI创建了EMR集群,但没有引导安装boto3。现在,我要执行使用boto3的pyspark脚本。因此,我通过SSH连接到主节点,并尝试......>

回答 1 投票 0

AWS EMR步骤找不到从s3导入的jar

我正在尝试以客户端模式在aws emr上运行spark应用程序。我已经设置了一个引导操作,以从s3导入所需的文件和jar,并且我有一个步骤可以运行单个spark作业。但是...

回答 1 投票 0

AWS EMR步骤找不到从s3导入的jar

我正在尝试以客户端模式在aws emr上运行spark应用程序。我已经设置了一个引导操作,以从s3导入所需的文件和jar,并且我有一个步骤可以运行单个spark作业。但是...

回答 1 投票 0

是否有一个火花库来查找句子中某个单词的语音匹配?

是否有一个火花库来查找句子中某个单词的语音匹配。例如:句子:“踏板车上有人。”查找单词:“两个”。由于to和2在语音上是...

回答 1 投票 -1

试图通过AWS CLI将S3存储桶名称和文件夹路径作为命令行参数传递给EMR上的python脚本

我正在尝试通过如下所示的AWS CLI将存储区名称和文件夹名称传递给我的python脚本:aws emr add-steps --cluster-id j-12XXXXXXXXX2R --steps Type = spark,Name = step0_do_something,。 ..

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.