在Databricks中安装libpostal

问题描述 投票:0回答:1

我正在尝试在 Databricks 中安装 libpostal python 包装器。

pip install postal 最终得到

CalledProcessError:命令“pip --disable-pip-version-check install” postal' 返回非零退出状态 1.

您对如何在 Databricks 中运行 libpostal 有什么建议吗? 谢谢你。

python databricks
1个回答
0
投票

我找到了一种运行它的方法:

通过Databricks集群库安装pylibpostal。

然后在笔记本中运行以下代码来下载所需的数据。在这种情况下,我使用来自 senzing 的数据 - Senzing /libpostal-data

# Download and unpack

%sh
# language classifier
curl -L https://public-read-libpostal-data.s3.amazonaws.com/v1.1.0/language_classifier.tar.gz | tar -xzvf - -C /dbfs/mnt/data/pylibpostal/

# Libpostal data
curl https://public-read-libpostal-data.s3.amazonaws.com/v1.1.0/libpostal_data.tar.gz | tar -xzvf - -C /dbfs/mnt/data/pylibpostal/

# Parser
curl https://public-read-libpostal-data.s3.amazonaws.com/v1.1.0/parser.tar.gz | tar -xzvf - -C /dbfs/mnt/data/pylibpostal/

您可以创建一个初始化脚本来改进上面的代码以检查新版本等。

import os 
os.environ['LIBPOSTAL_DATA_DIR'] = "/dbfs/mnt/data/pylibpostal/"
from pylibpostal.expand import expand_address
expand_address('Quatre vingt douze Ave des Champs-Élysées')

Out[14]: ['香榭丽舍大街92号', '香榭丽舍大道92号', ‘香榭丽舍大道92号’]

© www.soinside.com 2019 - 2024. All rights reserved.