我正在尝试在 Databricks 中安装 libpostal python 包装器。
pip install postal 最终得到
CalledProcessError:命令“pip --disable-pip-version-check install” postal' 返回非零退出状态 1.
您对如何在 Databricks 中运行 libpostal 有什么建议吗? 谢谢你。
我找到了一种运行它的方法:
通过Databricks集群库安装pylibpostal。
然后在笔记本中运行以下代码来下载所需的数据。在这种情况下,我使用来自 senzing 的数据 - Senzing /libpostal-data
# Download and unpack
%sh
# language classifier
curl -L https://public-read-libpostal-data.s3.amazonaws.com/v1.1.0/language_classifier.tar.gz | tar -xzvf - -C /dbfs/mnt/data/pylibpostal/
# Libpostal data
curl https://public-read-libpostal-data.s3.amazonaws.com/v1.1.0/libpostal_data.tar.gz | tar -xzvf - -C /dbfs/mnt/data/pylibpostal/
# Parser
curl https://public-read-libpostal-data.s3.amazonaws.com/v1.1.0/parser.tar.gz | tar -xzvf - -C /dbfs/mnt/data/pylibpostal/
您可以创建一个初始化脚本来改进上面的代码以检查新版本等。
import os
os.environ['LIBPOSTAL_DATA_DIR'] = "/dbfs/mnt/data/pylibpostal/"
from pylibpostal.expand import expand_address
expand_address('Quatre vingt douze Ave des Champs-Élysées')
Out[14]: ['香榭丽舍大街92号', '香榭丽舍大道92号', ‘香榭丽舍大道92号’]