有泰米尔语的词性标注器和分词器吗?

问题描述 投票:0回答:2

我是自然语言处理的初学者。我必须研究不同的语言,泰米尔语就是其中之一。我可以向专家询问是否有任何泰米尔语分词器代码(java、c、python 等)和词性标记器代码可供我用于研究?

如果我能在这里得到一些专家的意见,我真的很感激。如有任何帮助,我们将不胜感激。

谢谢

nlp stanford-nlp opennlp tamil
2个回答
4
投票

我找到了一种标记化工具Indic NLP Library。它支持泰米尔语。


我在互联网上没有找到可用的词性标注工具,但我找到了一些论文:

2008 基于词素的语言模型 用于泰米尔语词性标记

2009 泰米尔语词性的 CRF 模型 标记和分块

2009 基于规则的形态学改进 泰米尔语分析和词性标注 通过投影和感应技术

也许您可以联系作者寻求帮助。


或者如果你会说泰米尔语,在互联网(尤其是大学网站)上搜索泰米尔语,你可能会找到一些资源和工具。


0
投票

有。

import logging
import stanza

logging.getLogger('stanza').setLevel(logging.ERROR)

Download and initialize the Tamil model
stanza.download('ta')

nlp = stanza.Pipeline(lang='ta')

# Sample text in Tamil
text = "தமிழ் எங்கள் உயிருக்கு நேர்."
# Process the text
doc = nlp(text)

# Iterate over the sentences and tokens to print POS tags
print(f'{"POS":<7} | {"WORD":<10}')
for sentence in doc.sentences:
    for word in sentence.words:
        print(f"{word.pos:7} | {word.text}")


输出

POS     | WORD      
PROPN   | தமிழ்
PRON    | எங்கள்
NOUN    | உயிருக்கு
VERB    | நேர்
PUNCT   | .
© www.soinside.com 2019 - 2024. All rights reserved.