我在kaggle新闻头条数据集上练习。https:/www.kaggle.comaaron7sunstocknews#Combined_News_DJIA.csv
df = pd.read_csv('./data/Combined_News_DJIA.csv')
当读取新闻标题的DataFrame时,我得到了这个系列的关闭格式。
0 b"Georgia 'downs two Russian warplanes' as cou...
1 b'Why wont America & Nato help us? If they w...
2 b'Remember that adorable 9-year-old who sang a...
3 b' U.S. refuses Israel weapons to attack Iran:...
4 b'All the experts admit that we should legalis...
我试着用下面的方法
df['Series'].str.decode("utf-8")
但是输出的是一个列表 NaN
. 任何想法?如果能在整个DataFrame上实现,而不仅仅是一个Series,那就太好了。
你不能从UTF-8解码,因为它已经是一个字符串--不是字节序列。
该文件的内容确实令人困惑:它包含了一些以 "b'...
误导用户以为是字节,其实不是。
如果你运行 df.Top1[0]
,你会看到它包含。
'b"Georgia \'downs two Russian warplanes\' as countries move to brink of war"'
还有... type(df.Top1[0])
只是一个字符串。因此--你不能用UTF-8来解码它。