熊猫解码字符串返回NaN。

Question

我在kaggle新闻头条数据集上练习。https:/www.kaggle.comaaron7sunstocknews#Combined_News_DJIA.csv

df = pd.read_csv('./data/Combined_News_DJIA.csv')

当读取新闻标题的DataFrame时，我得到了这个系列的关闭格式。

0       b"Georgia 'downs two Russian warplanes' as cou...
1       b'Why wont America &amp; Nato help us? If they w...
2       b'Remember that adorable 9-year-old who sang a...
3       b' U.S. refuses Israel weapons to attack Iran:...
4       b'All the experts admit that we should legalis...

我试着用下面的方法

df['Series'].str.decode("utf-8")

但是输出的是一个列表 NaN. 任何想法？如果能在整个DataFrame上实现，而不仅仅是一个Series，那就太好了。

Answer 1

你不能从UTF-8解码，因为它已经是一个字符串--不是字节序列。

该文件的内容确实令人困惑：它包含了一些以 "b'...误导用户以为是字节，其实不是。

如果你运行 df.Top1[0]，你会看到它包含。

'b"Georgia \'downs two Russian warplanes\' as countries move to brink of war"'

还有... type(df.Top1[0]) 只是一个字符串。因此--你不能用UTF-8来解码它。

熊猫解码字符串返回NaN。

问题描述投票：2回答：1

1个回答

最新问题

熊猫解码字符串返回NaN。

问题描述 投票：2回答：1

1个回答

最新问题

问题描述投票：2回答：1