我正在尝试创建一个用于计算非英语文本的极性和主观性的nlp项目,因此我可以使用2种工具:Vader-Textblob。
经过大量研究后,我发现Vader对于社交媒体更有效,更准确。
我的问题是:我可以在vader中添加语言以便计算socres吗?还是像多语言这样的vader软件包?
对于该项目,我从csv文件中读取并将其导入到数据框熊猫,然后进行预处理和清理文本,然后对其进行分析以提取情感。
我将不胜感激。
根据documentation,维达使用两种资源:
虽然您可以为其他语言创建自己的资源,但作者指出,>
[手动创建(少得多,验证)全面的情感词典是一个劳动密集型的,有时容易出错的过程
因此,在可能的情况下,这并不容易。 Vader随附的词典文件仅包含8000个条目。我不知道生成这些结果有多么容易:大概在快速获得广泛的覆盖范围和结果的准确性之间需要权衡取舍。也许您可以先进行报道,然后通过相应地修改条目来逐步提高准确性。
[从粗略的眼光看,语法规则似乎主要是描述副词,以及它们是增加还是减少了情感。同样,这是必须调整的,因为它在源文件中用英语进行了硬编码。这取决于您的目标语言在语法上与英语在语法上有何不同。