NLTK：如何从csv文件创建语料库

Question

我有一个csv文件为

col1         col2      col3

some text    someID    some value
some text    someID    some value

在每一行中，col1对应于整个文档的文本。我想从此csv创建一个语料库。我的目标是使用sklearn的TfidfVectorizer计算文档相似度和关键字提取。因此考虑

tfidf = TfidfVectorizer(tokenizer=tokenize, stop_words='english')
tfs = tfidf.fit_transform(<my corpus here>)

这样我就可以使用

str = 'here is some text from a new document'
response = tfidf.transform([str])
feature_names = tfidf.get_feature_names()
for col in response.nonzero()[1]:
    print feature_names[col], ' - ', response[0, col]

我如何使用nltk创建语料库？语料库应采用哪种形式/数据结构，以便可以将其提供给转换函数？

Answer 1

从read_csv库中检出pandas。这里是文档：http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

您可以通过在命令行运行pip install pandas来安装熊猫。然后加载csv并选择该列应如下所示：

data = pd.read_csv(path_to_csv)
docs = data['col1']

tfs = tfidf.fit_transform(docs)

NLTK：如何从csv文件创建语料库

问题描述投票：1回答：1

1个回答

最新问题

NLTK：如何从csv文件创建语料库

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1