如何在python中从csv文件创建一个单词包?

问题描述 投票:1回答:1

我是python的新手。我有一个csv文件已清理推文。我想创建一些这些推文的单词。我有以下代码,但它无法正常工作。

import pandas as pd
from sklearn import svm
from sklearn.feature_extraction.text import CountVectorizer

data = pd.read_csv(open("Twidb11.csv"), sep=' ')
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(data.Text)
count_vect.vocabulary_

错误:

.ParserError:标记数据时出错。 C错误:第5行预计19个字段,见22

python-2.7 machine-learning sentiment-analysis
1个回答
0
投票

我认为这是重复的。你可以看到答案here。有很多答案和评论。

所以,解决方案可以是:

data = pd.read_csv('Twidb11.csv', error_bad_lines=False)

要么:

df = pandas.read_csv(fileName, sep='delimiter', header=None)

“在上面的代码中,sep定义你的分隔符和header = None告诉pandas你的源数据没有标题/列标题的行。所以文档说:”如果文件不包含标题行,那么你应该显式传递header = None “在这种情况下,pandas会自动为每个字段{0,1,2,...}创建整数。”

© www.soinside.com 2019 - 2024. All rights reserved.