我有一个 JSON 格式的数据集,其中包含“id”和“text”列。目前,我在 AWS 中使用以下管道配置:
hub = {
'HF_MODEL_ID':'distilbert-base-uncased',
'HF_TASK':'feature-extraction'
}
# create Hugging Face Model Class
huggingface_model = HuggingFaceModel(
env=hub, # configuration for loading model from Hub
role=role, # IAM role with permissions to create an endpoint
transformers_version="4.26", # Transformers version used
pytorch_version="1.13", # PyTorch version used
py_version='py39', # Python version used
)
# create Transformer to run our batch job
batch_job = huggingface_model.transformer(
instance_count=1,
instance_type='ml.m5.xlarge',
output_path=output_s3_path, # we are using the same s3 path to save the output with the input
strategy='SingleRecord')
我正在使用批量转换作业来生成输出,当前仅包含提取的文本。但是,我还想在输出文件中包含与每个文本关联的“id”。有没有办法实现这一点,如果是的话,我如何修改我的配置以在输出文件中包含“id”?任何指导或示例将不胜感激!
是的,您可以将批量转换作业中的输入与输出关联起来。参见:
在
.transform()
方法中,您使用 input_filter
和 output_filter
分别关联输入和输出 key:value
对。
sm_transformer.transform(…, input_filter="$", join_source= "Input", output_filter="$")