使用CLI使用胶水目录创建EMR Hive群集

问题描述 投票:0回答:1

我想创建EMR Hive群集,它将使用AWS CLI将Glue用作数据目录。我没有在AWS docs中找到任何与此相关的内容,也没有在其他地方搜索。这可能吗?

hive aws-cli amazon-emr aws-glue
1个回答
0
投票

首先,我们创建一个名为emr.json的configuration classification,它将AWS Glue数据目录指定为Hive的元存储:

[
  {
    "Classification": "hive-site",
    "Properties": {
      "hive.metastore.client.factory.class": "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory",
      "hive.metastore.schema.verification": "false"
    }
  }
]

注意:在EMR 5.28.0、5.28.1或5.29.0版中,如果要使用AWS Glue数据目录作为元存储来创建集群,我们会将hive.metastore.schema.verification设置为false。 。

最后,我们将配置分类文件与最终命令组合如下:

aws emr create-cluster --name "syumaK-cluster" --configurations file://emr.json --release-label emr-5.28.0 --use-default-roles --applications Name=Hadoop Name=Spark Name=Hive Name=HUE --instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType=m1.medium InstanceGroupType=CORE,InstanceCount=2,InstanceType=m1.medium

响应:

{
    "ClusterId": "j-2NZ6xxxxxx", 
    "ClusterArn": "arn:aws:elasticmapreduce:us-east-1:1925xxxxx:cluster/j-2NZ6xxxxxx"
}

希望这会有所帮助!

© www.soinside.com 2019 - 2024. All rights reserved.