UnicodeDecodeError Sentiment140 Kaggle

Question

我正在尝试阅读Kaggle上提供的Sentiment140.csv：https://www.kaggle.com/kazanova/sentiment140

我的代码是这个：

import pandas as pd
import os

cols = ['sentiment','id','date','query_string','user','text']
BASE_DIR = ''
df = pd.read_csv(os.path.join(BASE_DIR, 'Sentiment140.csv'),header=None, names=cols)

它给了我这个错误：

UnicodeDecodeError：'utf-8'编解码器无法解码位置中的字节80-81：无效的继续字节

我想了解的是：

1）如何解决此问题？

2）根据错误，在哪里可以看到我应该使用哪种编码类型而不是“ utf-8”？

3）使用其他编码方法会在以后引起其他问题吗？

提前感谢

P.s。我在Mac上使用python3

Answer 1

这有效：https://investigate.ai/investigating-sentiment-analysis/cleaning-the-sentiment140-data/

结果为encoding="latin-1"，您必须指定列名，否则它将使用第一行作为列名。这就是糟糕的现实世界数据集可能是哈哈

UnicodeDecodeError Sentiment140 Kaggle

问题描述投票：2回答：1

1个回答

最新问题

UnicodeDecodeError Sentiment140 Kaggle

问题描述 投票：2回答：1

1个回答

最新问题

问题描述投票：2回答：1