Azure DataBricks 导入错误:无法导入名称 dataclass_transform

问题描述 投票:0回答:1

我有一个 python 笔记本在 DataBricks 集群上运行以下导入

%pip install presidio_analyzer
%pip install presidio_anonymizer
import spacy.cli
spacy.cli.download("en_core_web_lg")
nlp = spacy.load("en_core_web_lg")
import csv
import pprint
import collections
from typing import List, Iterable, Optional, Union, Dict
import pandas as pd
from presidio_analyzer import AnalyzerEngine, BatchAnalyzerEngine, RecognizerResult, DictAnalyzerResult
from presidio_anonymizer import AnonymizerEngine
from presidio_anonymizer.entities import EngineResult

安装并运行 Microsoft Presidio 库以匿名化数据。

代码在通过 Databricks notebooks UI 调用时工作正常并运行,但是当尝试将此笔记本作为 Azure 数据工厂管道中的一个步骤调用时,它会出现以下错误:

"runError": "ImportError: cannot import name dataclass_transform"

从 Databricks UI 中的反复试验中,我可以确定此错误是由于缺少导入库的某些部分而生成的,但代码开头给出的命令在 DataBricks 笔记本中解决了此问题。

我无法解释为什么这个步骤在作为 ADF 步骤调用时不起作用。

python azure azure-data-factory databricks presidio
1个回答
0
投票

这些天我在我的环境中遇到了类似的问题。看起来这是由 spaCy 版本 3.5.0 引起的。我降级(明确指定)以使用版本 3.3.0(3.4.0 也可能有效)并且它再次工作。

© www.soinside.com 2019 - 2024. All rights reserved.