熊猫解码字符串返回NaN。

问题描述 投票:2回答:1

我在kaggle新闻头条数据集上练习。https:/www.kaggle.comaaron7sunstocknews#Combined_News_DJIA.csv

df = pd.read_csv('./data/Combined_News_DJIA.csv')

当读取新闻标题的DataFrame时,我得到了这个系列的关闭格式。

0       b"Georgia 'downs two Russian warplanes' as cou...
1       b'Why wont America & Nato help us? If they w...
2       b'Remember that adorable 9-year-old who sang a...
3       b' U.S. refuses Israel weapons to attack Iran:...
4       b'All the experts admit that we should legalis...

我试着用下面的方法

df['Series'].str.decode("utf-8")

但是输出的是一个列表 NaN. 任何想法?如果能在整个DataFrame上实现,而不仅仅是一个Series,那就太好了。

python pandas decode
1个回答
2
投票

你不能从UTF-8解码,因为它已经是一个字符串--不是字节序列。

该文件的内容确实令人困惑:它包含了一些以 "b'...误导用户以为是字节,其实不是。

如果你运行 df.Top1[0],你会看到它包含。

'b"Georgia \'downs two Russian warplanes\' as countries move to brink of war"'

还有... type(df.Top1[0]) 只是一个字符串。因此--你不能用UTF-8来解码它。

© www.soinside.com 2019 - 2024. All rights reserved.