我正在使用Python进行情感分析(我仍然是使用该特定编程语言的新手)。在进行实际分析之前,我需要对csv文件中的一些Twitter数据进行预处理。首先,我需要标记特定列中的文本,在我的情况下是第二列或colB。我发现了一些建议,建议如何进行标记化而不选择特定的col。有经验的人吗?
我尝试了此代码,该代码似乎适用于所有列,但是如何将其隔离到第二列?
import csv
import nltk
from nltk import word_tokenize
with open('TwitterData.csv', 'r') as csvfile:
reader = csv.DictReader(csvfile)
for row in reader:
print(row)
对用于情感分析预处理的模块和代码有任何建议吗?
非常感谢!
我强烈建议您使用scikit-learn文档和模块,尤其是有关“使用文本数据”的部分:https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
[这里也有关于情感分析的部分:https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html#exercise-2-sentiment-analysis-on-movie-reviews
如果您的代码需要更多具体帮助,最好始终提供一个“可重现的最小示例”:https://stackoverflow.com/help/minimal-reproducible-example这样,其他人可以更好地帮助您解决您面临的特定问题。
希望对您有帮助:)