如何在Python中使用ISO语言代码获取该语言的所有unicode字符？

Question

例如，德语的ISO语言代码是

de

。
如何在 Python 中获取该语言的所有 unicode 字符？

如果这不能直接实现，那么以下怎么样：
给定 ISO 语言代码（例如

de

），

如何找到给定 ISO 语言代码的脚本名称？

（例如，德语使用的脚本是拉丁语）

>>> import unicodedata as ud
>>> ud.name('ß')
'LATIN SMALL LETTER SHARP S'

现在使用这个脚本名称，如何获取该脚本的所有 unicode 字符？

Answer 1

Unicode CLDR 项目编译您正在寻找的信息（以及更多信息）。例如，在“de”德语的 CLDR 数据中（链接到最新版本中的数据），请参阅数据中的第一行。 Python 使用一些 CLDR 数据（例如，用于按字符属性的正则表达式模式），但可能不是这个特定的数据。寻找一个按语言/区域设置提供 CLDR 示例支持的库。

[2022-7-29：附加信息] CLDR 语言示例数据列出了用于特定语言的字符。该数据在 ICU 库中公开（有关相关 API，请参阅

头文件）。 Python 的 PyICU 扩展包装了 ICU 库。

Answer 2

这是一个老问题，但我会以 Peter Constable 的建议为基础。

CLDR 中定义的示例数据以及辅助字符和标点符号可通过

icu.LocaleData

 类获得。

首先我们为德语启动一个 LocaleData 对象。我们需要为此类指定语言标签，而不是语言环境对象：

import icu
de_ld = icu.LocaleData('de-DE')
exemplars = de_ld.getExemplarSet(0, 0)
print(exemplars)
# ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'ß', 'ä', 'ö', 'ü']

icu.LocaleData.getExemplarSet

 将返回一个

icu.UnicodeSet

 对象。只需根据需要将其转换为 Python

set

或

list

。

然后使用

icu.LocaleData.getExemplatSet(options, extype)

 检索示例字符，其中

options

 设置为

0

，这是未修改的示例集（全部小写字符，并且

extype

 设置为

0

或

icu.ULocaleDataExemplarSetType.ES_STANDARD

。

我们还可以使用标准德语排序规则对它们进行排序：

collator = icu.Collator.createInstance(icu.Locale('de_DE'))
exemplars.sort(key=collator.getSortKey)
print(exemplars)
# ['a', 'ä', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'ö', 'p', 'q', 'r', 's', 'ß', 't', 'u', 'ü', 'v', 'w', 'x', 'y', 'z']

但是语言标签很重要。此列表是为标准德语创建的，与瑞士标准德语的列表不同。

在 Unicode Set 表示法中：

标准德语：[a-zßäöü] 瑞士标准德语：[a-zäöü]

如果我们将选项设置为

4

或

icu.USET_ADD_CASE_MAPPINGS

，我们将获得示例集的版本，并添加其他案例映射：

exemplars_full = de_ld.getExemplarSet(icu.USET_ADD_CASE_MAPPINGS, icu.ULocaleDataExemplarSetType.ES_STANDARD)
print(exemplars_full)

返回 Unicode 集：[A-Za-zäÖÜßäöü{SS}{Ss}{ss}]

如何在Python中使用ISO语言代码获取该语言的所有unicode字符？

问题描述投票：0回答：2

2个回答

最新问题

如何在Python中使用ISO语言代码获取该语言的所有unicode字符？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2