amazon-sagemaker 相关问题

Amazon SageMaker是一个完全托管的AWS服务,使开发人员和数据科学家能够快速,轻松地构建,培训和部署任何规模的机器学习模型。

在 AWS SageMaker 上优化深度学习模型训练时间和成本的策略

我正在使用 AWS 服务进行机器学习项目,我需要在大型数据集上训练大型深度学习模型。数据集由数百万张图像组成,模型有几个

回答 0 投票 0

在 AWS SageMaker Notebooks 中打开网站

我正在使用 Amazon SageMaker 并在其中运行笔记本实例。在我的笔记本实例中,我创建了一个 conda_python3 文件并尝试运行以下命令(它在我的本地机器上运行......

回答 1 投票 0

Sagemaker 培训工作致命错误:无法打开文件“train”:没有这样的文件或目录

我正在尝试带上你自己的模型。我有R代码。当我尝试运行该作业时,它失败了。 训练图像: 来自 r-base:3.6.3 维护者 Amazon SageMaker 示例 我正在尝试带上你自己的模型。我有R代码。当我尝试运行它时失败了。 训练图像: FROM r-base:3.6.3 MAINTAINER Amazon SageMaker Examples <[email protected]> RUN apt-get -y update && apt-get install -y --no-install-recommends \ wget \ r-base \ r-base-dev \ apt-transport-https \ ca-certificates \ python3 python3-dev pip ENV AWS_DEFAULT_REGION="us-east-2" RUN R -e "install.packages('reticulate', dependencies = TRUE, warning = function(w) stop(w))" RUN R -e "install.packages('readr', dependencies = TRUE, warning = function(w) stop(w))" RUN R -e "install.packages('dplyr', dependencies = TRUE, warning = function(w) stop(w))" RUN pip install --quiet --no-cache-dir \ 'boto3>1.0<2.0' \ 'sagemaker>2.0<3.0' ENTRYPOINT ["/usr/bin/Rscript"] 源代码: rcode └── train.R └── train.tar.gz 建造 - aws s3 cp $CODEBUILD_SRC_DIR/rcode/ s3://${self:custom.deploymentBucket}/${self:service}/code/training --recursive Serverless.com yaml SagemakerRCodeTrainingStep: Type: Task Resource: ${self:custom.sageMakerTrainingJob} Parameters: TrainingJobName.$: "$.sageMakerTrainingJobName" DebugHookConfig: S3OutputPath: "s3://${self:custom.deploymentBucket}/${self:service}/models/rmodel" AlgorithmSpecification: TrainingImage: ${self:custom.sagemakerRExecutionContainerURI} TrainingInputMode: "File" OutputDataConfig: S3OutputPath: "s3://${self:custom.deploymentBucket}/${self:service}/models/rmodel" StoppingCondition: MaxRuntimeInSeconds: ${self:custom.maxRuntime} ResourceConfig: InstanceCount: 1 InstanceType: "ml.m5.xlarge" VolumeSizeInGB: 30 RoleArn: ${self:custom.stateMachineRoleARN} InputDataConfig: - DataSource: S3DataSource: S3DataType: "S3Prefix" S3Uri: "s3://${self:custom.datasetsFilePath}/data/processed/train" S3DataDistributionType: "FullyReplicated" ChannelName: "train" HyperParameters: sagemaker_submit_directory: "s3://${self:custom.deploymentBucket}/${self:service}/code/training/train.tar.gz" sagemaker_program: "train.R" sagemaker_enable_cloudwatch_metrics: "false" sagemaker_container_log_level: "20" sagemaker_job_name: "sagemaker-r-learn-2022-02-28-09-56-33-234" sagemaker_region: ${self:provider.region} 我不确定您使用的是哪个TrainingImage以及容器中的所有文件。 话虽如此,我怀疑您正在使用自定义容器。 SageMaker Training Jobs 查找 train 文件并按照 follows: 运行您的容器 docker run image train 您可以通过在 Dockerfile 中设置 ENTRYPOINT 来更改此行为。请参阅来自r_byo_r_algo_hpo示例的Dockerfile示例。 如果您希望能够在容器内执行任意 R 脚本,则需要编写一个入口点 R 脚本,该脚本使用 Sagemaker 传入的参数。Amazon Sagemaker 示例存储库在此处介绍。使用 Sagemaker SDK 估算器类 的 entrypoint 参数,您的脚本名称将作为运行命令中的参数传递(例如 docker run image train script)。 请注意,估计器类的 entrypoint 参数是 not 覆盖图像的入口点,正如您根据名称所期望的那样。它只是向 docker run 命令添加一个参数。

回答 2 投票 0

如何在 amazon-sagmaker studio lab 中使用 GPU 选项?

我打算使用亚马逊的 sagmaker studio lab,当我选择 GPU 选项时,它总是显示这个错误: 在此处输入图像描述 你知道问题出在哪里吗? 没有可用的运行时...

回答 0 投票 0

如何在处理步骤中使用 sagemaker 管道参数?

我想将一个参数传递到我的 sagemaker 管道并在我的处理步骤中使用它。我将我的步骤定义如下: 从 sagemaker.processing 导入处理器 my_processor = 处理器...

回答 1 投票 0

使用生命周期配置创建 sagemaker studio 环境

在 Sagemaker Studio 中,我使用启动脚本创建了一个新的生命周期配置,该脚本可以使用某些包(例如 BeautifulSoup)设置新环境。我写的脚本如下...

回答 0 投票 0

当我从 Sagemaker 创建 ML 管道时,inference.py 中的后处理不起作用

我正在从 Sagemaker 创建 ML 管道。 作为以下代码,我添加了一个 inference.py 来进行后处理,它将在端点调用期间调用。然而,output_h...

回答 1 投票 0

如何使用aws SageMaker清单文件训练模型?

我使用 aws SageMaker 作为清单文件(json 结构)从图像中标记了边界框数据。我想用它们来训练我的模型,例如下面的模型(作为示例,但可以使用...

回答 1 投票 0

如何删除AWS Augmented AI中的工人任务模板?

我已经在AWS Augmented AI中为测试创建了工人任务模板。但是,我不知道如何删除这些模板。请告诉我怎么做。

回答 1 投票 0

如何在Sagemaker脚本模式下恢复训练工作?

在非脚本模式下,对于使用Tensorflow的Sagemaker训练作业,我可以在S3中使用checkpoint_path指定一个检查点路径。然而,在脚本模式下,这个参数被禁用。我怎样才能...

回答 1 投票 0

在AWS Sagemaker中安装Pytorch变压器

我试图为我的AWS Sagemaker笔记本实例安装pytorch transformers包。然而,当我运行入口点脚本时,它一直给我提供 "没有找到模块 "的错误信息。...

回答 1 投票 0

如何在Mac中本地运行张量流模型?

我在Sagemaker中部署了一个ML模型。我把模型(tar.gz)复制到我的Mac上,并试图在本地编写运行tar.gz模型文件。我需要通过输入作为一个图像,将通过这个......

回答 1 投票 -1

等候太早回来

我正在从DynamoDB中检索图像文件名列表,并使用这些图像文件名来替换网站中一部分的默认src=图像。我是一个JS新手,所以我肯定缺少 ...

回答 2 投票 0

Sagemaker使用EC2实例

有沒有辦法查看AWS Sagemaker對EC2實體的使用情況?我正在运行一个Sagemaker端点,并试图在EC2用户界面中找到它的实例(本例中为ml.p3.2xlarge),但找不到......

回答 1 投票 0

aws sagemaker给出的模型数据存档太大。请减小模型数据存档的大小

我正在使用aws sagemaker部署一个模型,这个模型生成的工件非常大。压缩后的大小约为80GB。在 sage maker 上部署 ml.m5.12xlarge 实例时抛出了这个错误,而...。

回答 1 投票 0

在笔记本启动时安装jupyterlab扩展软件

每次我的笔记本关机和重启,我失去了插件,并不得不从终端重新安装它们有什么办法设置jupyterlab扩展在启动时自动安装 ...

回答 1 投票 0

AWS Sagemaker培训成功后失败 "ClientError: Artifact upload failed:Insufficient disk space"(工件上传失败:磁盘空间不足)。

我正在使用自定义docker镜像训练一个网络。第一次用50.000步训练时,一切都很正常,当我试图增加到80.000步时,我得到了错误。"ClientError: Artifact upload failed:Insufficient ...

回答 1 投票 0

自定义Sagemaker框架训练作业容器中的entry_point脚本存放在哪里?

我正试图创建自己的自定义Sagemaker框架,运行自定义的python脚本,使用entry_point参数训练一个ML模型。按照Python SDK文档(https:/sagemaker......)。

回答 1 投票 1

无法执行AWS Sagemaker Notebook

我无法再执行sagemaker笔记本。出现以下错误。Failed to start kernel An error occurred (ThrottlingException) when calling the CreateApp operation ( reached max retries: 4): ...

回答 1 投票 0

当调用sagemaker端点时,如何构建 "textcsv "有效载荷?

我的训练数据看起来像df = pd.DataFrame({'A' : [2, 5], 'B' : [1, 7]})我在AWS Sagemaker中训练了一个模型,并将该模型部署在一个端点后面。端点接受的有效载荷是"..."。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.